机器学习中的相关基础概念【整理】

总结了部分机器学习中的基础概念。

 

一、准确率,精确度,召回率,F1 Score,ROC,AUC

转载自:https://blog.csdn.net/chnguoshiwushuang/article/details/80616822

1.1 准确率


   准确率是对给定数据集,分类正确样本个数和总样本数的比值。即: 



1.2 精确度


   精确度说明判断为真的正例占所有判断为真的样例比重,即: 



1.3 召回率


   召回率又被称为查全率,用来说明分类器中判定为真的正例占总正例的比率,即:

 

1.4 三者之间的联系

   一般来说,精确度和召回率之间是矛盾的,这里引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。F1是精确率和召回率的调和平均: 

1.5 ROC曲线、AUC曲线


Receiver Operating Characteristic
ROC曲线的坐标,纵坐标为真正例率(True Positive Rate,TPR),横坐标为假正例率(False Positive Rate,FPR)
定义如下:

机器学习中的相关基础概念【整理】_第1张图片

如何绘制ROC曲线?
我们按照预测结果对样例进行排序,按照顺序逐个把样本作为正例进行预测,每次计算出这两个重要的值,分别以它们的横纵坐标作图。

曲线下的面积被称为AOC
AOC的意义:衡量正样本排在负样本前面的能力,这里的能力更具体一点就是出现的概率。与域值的选取没有关系。

二、L1,L2正则化

转载自:

https://segmentfault.com/a/1190000014680167?utm_source=tag-newest

https://blog.csdn.net/zouxy09/article/details/24971995

机器学习中, 损失函数后面一般会加上一个额外项,常用的是l1-norm和l2-norm,即l1范数和l2范数。

可以看作是损失函数的惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

upload successful

上面的目标函数,第一项是模型要最小化的误差,第二项是正则化项,λ>=0调节两者之间关系的系数。

正则化项可以取不同的形式。

2.1 L0范数


是指正则化项是 参数矩阵W中非0元素的个数,也就是说希望W的大部分元素都是0,W是稀疏的。

由于L0正则项非连续非凸不可求导,难以找到有效解,转而使用L1范数。

2.2 L1范数


正则化项是向量中各个元素的绝对值之和

L0和L1范数可以实现让参数矩阵稀疏,让参数稀疏的好处,可以实现对特征的选择(权重为0表示对应的特征没有作用,被丢掉),也可以增强模型可解释性(例如研究影响疾病的因素,只有少数几个非零元素,就可以知道这些对应的因素和疾病相关)

L1又称Lasso。

2.3 L2范数


功效是解决过拟合问题。当模型过于复杂,就会容易出现过拟合问题。

机器学习中的相关基础概念【整理】_第2张图片

L2范数是指向量各个元素的平方,求和,然后再求平方根
使L2范数最小,可以使得W的每个元素都很小,都接近于0,但和L1范数不同,L2不能实现稀疏,不会让值等于0,而是接近于0。一般认为,越小的参数,模型越简单,越简单的模型就不容易产生过拟合现象。

L2又称Ridge,也称岭回归。

2.4 小结

公式:

机器学习中的相关基础概念【整理】_第3张图片

区别:
使用L1范数,可以使得参数稀疏化;
使用L2范数,倾向于使参数稠密地接近于0,避免过拟合。

 

参考文献:

https://blog.csdn.net/chnguoshiwushuang/article/details/80616822

https://segmentfault.com/a/1190000014680167?utm_source=tag-newest

你可能感兴趣的:(机器学习)