分类预测建模问题与回归预测建模问题不同。
分类和回归算法之间存在一些重叠, 例如:
一些算法可用于分类和回归,只需很少的修改,例如决策树和人工神经网络。一些算法不能或不能容易地用于两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。
重要的是,我们评估分类和回归预测的方式各不相同,并且不重叠,例如:
比如,区分图像中的人是男性还是女性的问题就是分类问题。根据一个人的图像预测这个人的体重的问题就是回归问题(类似“57.4kg”这样的预测)。
分类问题是有监督学习的一个核心问题。
分类用于解决要预测样本属于哪个或者哪些预定义的类别。此时输出变量通常取有限个离散值。
分类的机器学习的两大阶段:
(1)从训练数据中学习得到一个分类决策函数或分类模型,成为分类器(classifier);
(2)利用学习得到的分类器对新的输入样本进行类别预测。
多类分类问题可转化为两类分类问题解决,如采用一对其余(One-vs-Rest)方法:将其中一个类标记为正类,将其余类标记为负类。
假设只有两类样本,即正例(positive)和负例(negetive)。
真正(True Positive , TP):被模型预测为正的正样本。
假正(False Positive , FP):被模型预测为正的负样本。
假负(False Negative , FN):被模型预测为负的正样本。
真负(True Negative , TN):被模型预测为负的负样本。
精确率和召回率是二类分类问题常用的评价指标。
精确率反映了模型判断的正例中真正正例的比重。
在垃圾分类中,是指预测出的垃圾短信中真正垃圾短信的比例。
召回率反映了总正例中被模型正确判定为正例的比重。
医学领域也叫做灵敏度。在垃圾短信分类器中,指所有真的垃圾短信被分类器正确找出来的比例。
由图可见,如果提高召回率,则精确率会受到影响而下降。如图是多类分类器,每次将一类分为正例,其他两类为负例,则得到蓝绿红三条曲线。而黄色曲线是他们的平均值线。
括号中area为曲线下面积。
area有助于弥补P、R的单点值局部性,可以反映全局性能。
绘制P-R曲线需要一系列Percision和Recall值,通过阈值获得。分类器给每个测试样本一个“Score”值,表示该样本多大概率上属于正例。
TP与FP的个数会随之增加,因此会形成N个(P,R)点将这些点连起来就形成了P-R曲线。
F值是精确率和召回率的调和平均值。
F1值更接近于两个数较小的那个,所以精确率和召回率接近时,F1值大。
ROC曲线全称为“受试者工作特征”(Receiver Operating Characteristic)曲线。描绘了分类器在真正率(TPR)和假正率(FPR)之间的trade-off。
也可理解为:我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出TP和FP,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。
ROC曲线的纵轴是“真正率”(True Positive Rate, 简称TPR),真正正例占总正例的比例,反映命中概率。横轴是“假正率”(False Positive Rate,简称FPR),错误的正例占负例的比例,反映误诊率、假阳性率、虚惊概率。
ROC 曲线的画法与P-R曲线相似。
绘制ROC曲线需要一系列FPR值和TPR值,这些系列值是通过阈值形成的。对于每个测试样本,分类器会给一个“Score”值,表示该样本多大概率上属于正例或负例。
TP与FP的个数会随着样本数的增加而增加,因此形成一个个(FP,TP)点,将点连起来就形成了ROC曲线。
AUC就是ROC曲线下的面积,即ROC的积分。衡量学习器优劣的一种性能指标。
AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率(反映分类器对样本的排序能力)。
AUC提供了分类器的一个整体数值。通常AUC越大,分类器越好。
AUC的取值范围为[0,1]
如用热力图(heatmap)直观地展现类别的混淆情况(每个类有多少样本被错误地预测成另一个类)
显示每个类的分类性能。包括每个类标签的精确率、召回率、F1值等。。
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
回归侧重在定量关系的分析,输出实数数值。而分类的输出通常为若干指定的类别标签。
MAE :是绝对误差损失(absolute error loss)的期望值。
MSE:是平方误差损失(squared error loss)的期望值。
NSE的取值越小,预测模型的性能越好。
RMSE是MSE的平方根。
逻辑回归损失简称为Log loss,又称为交叉熵损失。
常用于评论逻辑回归LR和神经网络。