吃瓜教程Task1笔记 fromHan

吃瓜教程Task1笔记 fromHan_第1张图片

 

吃瓜教程Task1笔记 fromHan_第2张图片

采样方法:

西瓜书前两章在本书后面很多地方也有用到,比如bagging 方法正是基于自助采样法,集成方法希望基学习器好而不同,通过改变学习样本的分布可以做到这点,让学习器学习不同的样本从而增大学习器间的差异。相较于adaboost每次给样本重新分配权重改变分布,bagging采用bootstrap 采样法也可以看作一种改变样本分布的形式,被选中的样本权重为1,未被选中的样本权重为0,T次bootstrap 使得T个bagging 集成的学习器以不同的样本分布学习,增大了学习器的多样性。还有交叉验证法可以用于集成的stacking 方法中,交叉验证法留下了从未出现在训练初级学习器的训练集样例来训练次级学习器,避免了过拟合,本质上我们用stacking 来学习结合结果就是为了选出泛化能力强的学习器,而不是仅仅对训练集拟合能力强的学习器。

ROC曲线:

1. 什么是ROC曲线?
答:ROC曲线中文名为“受试者工作特征曲线”,曲线的横坐标为假阳性率(FPR=FP/N)纵坐标为真阳性率(TPR=TP/P),ROC经常作为评估二值分类器最重要的指标之一。

2. 简述如何绘制ROC曲线?
答:ROC曲线是不断移动分类器的区分正负预测样例的阈值来生成曲线上的一组关键点的,
在二值分类问题中,模型的输出一般都是预测样本为正例的概率。将样本按照预测概率从高到低排序,在输出最终的正负例结果之前,我们需要指定一个阈值,超过该阈值判定为正例,通过不断移动该阈值从最高调整至最低,对每一个截断点计算出一个对应的FPR和TPR,在ROC图上绘制出每个截断点的坐标,再连接所有的点就得到最终的ROC曲线。

3. 简述如何计算AUC?AUC有什么实际意义?
简述:AUC是ROC曲线的线下面积,ROC曲线一般都位于Y=X这条直线的上方,如果不是的话将分类器预测的概率反转成1-p即可得到更好的分类器,所以AUC的取值一半在0.5-1之间。AUC越大,说明分类器越可能将真正的正例排在前面,分类的性能越好。
4.ROC曲线与P-R曲线相比有什么特点?
简述:ROC曲线相较于P-R曲线有一个特点,当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线的形状则会发生剧烈的变化。ROC曲线能够更加稳定地反映模型本身的好坏,如果研究者希望更多地看到模型在特定数据集上的表现,P-R曲线则能够更直观地反映其性能。

 

过拟合&欠拟合

1. 什么是过拟合?能否说出几种降低过拟合的方法?

简述:过拟合指的是学习器对训练集学习过度,学习到了过多训练样本特有的特征,从而在测试集表现不佳或者对真实需要预测的新样例预测不准,泛化能力差。降低过拟合,有如下几种思路:
(1)从数据入手,增加训练数据量是缓解过拟合最有效的方式
(2)降低模型复杂度,例如,在神经网络中减少网络层数,神经元个数,决策树中剪枝等等。

(3) 正则化方法,给模型的目标优化函数添加正则化项,例如将权重的大小加入到损失函数中,从贝叶斯的角度理解正则化项相当于加入了我们对模型的先验知识。

(4) 集成学习方法,如bagging方法,可以降低单一模型的过拟合风险。
2.什么是欠拟合?能否说出几种降低欠拟合的方法?
简述:欠拟合指模型对样例特征的学习不足,在训练集和测试集上的表现都不佳的现象。降低欠拟合,有如下几种思路:
(1)添加新特征,当特征不足或者现有特征和样本标签相关性不大时,可能出现欠拟合。
(2)增加模型复杂度:如在线性模型中添加高次项,神经网络增加层数和神经元个数。

(3) 减小正则化系数

学习课程链接:https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W

 

 

 

 

 

 

你可能感兴趣的:(机器学习)