讲过了第一大类的Regression,自然就到了机器学习的另一个问题:Classification。Regression主要是处理和数值相关的问题,比如我们需要预测某种结果的时候。但Classification着重于分类,比如说我们在看病的时候,需要一种模型来告诉我们究竟是否得病了,再比如一些手写识别,人脸识别。在这部分,我们也会通过举出某种实例来说明分类的问题。
Example:Classification of Pokemon
这部分举例主要是通过不同的宝可梦的特征值,来判断它是什么属性的。
可能你也会问,那既然如此,我们何不利用regression定义一条直线,然后通过的两边来定义不同的类呢。
这样的想法是合理的,但如果用regression其实拔高了各类之间的关系。怎么说呢,可能现在有两组分类,但由于其中一组一些data过于正确,这条分类的regression的线就会过度偏向于有很多正确data的一方。所以Regression的方法是不合适的。
所以我们还是通过既定的步骤来找合适的模型:
- 分类问题该应用怎样的模型
- 分类问题该应用怎样的损失函数进行训练
- 最佳的模型是什么
Probability Generative Model
首先,回答第一个问题的是,我们该通过怎样的模型对分类问题进行训练。这里选择的是概率模型。至于为什么叫Generative,是因为在我们得知模型之后就可以自己生成数据了。
这里把问题建模为一个概率模型,即当我们得知数据 $\bf x$ 之后,它处于每一类的概率是多少,概率越大的类别有更大的可能性,我们就将数据分到概率最大的类别。若是二分类,直接看概率是否大于0.5即可。