机器学习模型的性能评价

模型的学习能力和泛化能力

1.学习能力

学习能力是关于训练得到的模型关于训练样本集的预测能力。
机器学习模型的性能评价_第1张图片
训练误差就是拿模型对训练集预测的结果与数据实际对应的结果进行比较,计算损失。
2.泛化能力
泛化能力指的是学习到的模型关于未知样本的预测能力。由于泛化误差难以估计,一般以测试花茶评价模型的泛化能力。
机器学习模型的性能评价_第2张图片
泛化误差就是拿模型对测试集预测的结果与数据实际对应的结果进行比较,计算损失。
3.过拟合与模型的选择
过拟合:对训练集的预测性能很好,但对测试机的预测性能很差。
机器学习模型的性能评价_第3张图片
随着模型的复杂程度增加(例如给定多项式函数进行拟合,多项式次数越高,复杂度越高):
模型的训练误差逐渐减小,甚至趋于0,但模型的测试误差是先减小,后增大。
对于多项式函数的拟合,多项式次数的确定过程就是模型的选择过程。
训练误差、测试误差与模型复杂程度之间的关系:
机器学习模型的性能评价_第4张图片
4.防止过拟合与适当复杂度模型的选择
方式一:基于结构化风险最小化策略,引入含正则项的目标函数。
方式二:基于交叉验证方式的模型选择,交叉验证不仅用于模型的选择,还用于模型的最终评价。

交叉验证

交叉验证:拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报。
1.数据集的划分方式
机器学习模型的性能评价_第5张图片
2.基于交叉验证的模型选择与评价
留出法与留出法交叉验证:
1.即训练集和测试集的合集是整个数据集,而训练集和测试集并不相关。
2.要求对数据集进行划分的时候要随机划分,保持数据的一致性。
3.训练集不低于2/3,测试集不低于1/4。
4.存在问题:
①若训练集规模足够大,则模型的学习较好,但测试集较少,评价结果不稳定。
②若测试集规模足够大,测试误差接近泛化误差,但训练集得到的模型与整个数据集得到的模型差别大,降低评估结果的保真性。
k-倍交叉验证:
1.即训练集和测试集的合集是整个数据集,而训练集和测试集并不相关。
2.数据集的随机划分尽量能保持数据分布一致性,随机打乱D,均分称k等份。
悲观、有偏估计:单轮/多轮k-倍交叉验证(k-fold CV)。
机器学习模型的性能评价_第6张图片
无偏估计:留一法交叉验证。
机器学习模型的性能评价_第7张图片
自助法(bootstrapping):
1.对初始数据集D有放回的随机抽取N次,得到自助数据集
2.对数据集D中没有抽到的样本集作测试集
如何基于交叉验证的方式,进行模型选择?
举例:针对C=3的分类问题。采用交叉验证的方式进行KNN分类选择。
如果采用5-倍交叉验证,即将数据集基于5-倍交叉验证的情况下,选择KNN的不同K值查看模型选择的结果,选择合适的模型。

模型评价

1.基于测试集的二分类模型评价(第一类:是与非)
混淆矩阵:
①样本通常有两种自然类别状态,通常设定感兴趣的一类为正类。
②混淆矩阵的数字形式:
机器学习模型的性能评价_第8张图片
混淆矩阵的概率形式:
机器学习模型的性能评价_第9张图片
图中也就是两种形式,自然状态和模型预测输出结果,那么混淆矩阵有四种状态,分别是:
自然为真,模型输出为真;
自然为真,模型输出为假;
自然为假,模型输出为真;
自然为假,模型输出为假。
在这里插入图片描述
基于两类别混淆矩阵的评价指标:

机器学习模型的性能评价_第10张图片
机器学习模型的性能评价_第11张图片
ROC曲线(Receiver Operating Characteristic Curves)
ROC 曲线是灵敏度或真阳性的图形图率(y 轴)与假阳性率(1 - 特异性或 1 - 真负率)(x轴),对于二元分类器系统作为其辨别阈值不同。
机器学习模型的性能评价_第12张图片
机器学习模型的性能评价_第13张图片
P-R曲线:

机器学习模型的性能评价_第14张图片
2.基于测试集的二分类模型评价(第一类:第1类vs第2类)
机器学习模型的性能评价_第15张图片
机器学习模型的性能评价_第16张图片
机器学习模型的性能评价_第17张图片
机器学习模型的性能评价_第18张图片
机器学习模型的性能评价_第19张图片
2.基于测试集的多分类模型评价
机器学习模型的性能评价_第20张图片
机器学习模型的性能评价_第21张图片
机器学习模型的性能评价_第22张图片
机器学习模型的性能评价_第23张图片
机器学习模型的性能评价_第24张图片
机器学习模型的性能评价_第25张图片
机器学习模型的性能评价_第26张图片
机器学习模型的性能评价_第27张图片

你可能感兴趣的:(机器学习,机器学习)