选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15
机器学习的定义
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法
根据训练数据是否拥有标记信息,将学习任务分为监督学习和无监督学习。
监督学习
:分类和回归
线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络
无监督学习:
聚类聚类算法: 原型聚类:(k均值,学习向量量化,高斯混合聚类);密度聚类(DBSVAN);层次聚类(AGNES)。降维。话题分析。图分析。
泛化能力
”训练误差: 训练集上的误差
泛化误差:新样本上的误差
训练误差越小越好?
不是,训练误差越来越小会导致模型过拟合,则模型不具备很好的泛化能力。
泛化误差越小越好?
是的,预测的越准确越好,即泛化误差越小越好。
过拟合
: 学习到的模型太符合训练集的特征
欠拟合
: 学习到的模型没有把应该考虑进去的属性考虑进去。
减小过拟合的方法:
减少特征的数量,数据正则化
如果一个模型加入正则项,这个模型的拟合程度不一定增加。取决于正则化参数。参数过大会导致欠拟合
,过小会导致过拟合。
评估模型的方法:
交叉验证法
:将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,一共进行k次,最终返回这k个测试结果的均值。
留出法
:划分两个互斥子集,一个训练集,一个测试集。
自助法
:有放回采样。
参数与性能度量 回归任务最常用的性能度量是均方误差
错误率:分类错误的样本数占总样本数的比例
精 度 = 1 - 错误率
P-R曲线中,
(1)若一个学习器的曲线被另一个学习器的曲线完全包住,则后者大于前者。
(2) 面积越大,性能越好
(3)平衡点(查全率=查准率)越高越好
ROC曲线中
横坐标
为假正例率
,纵坐标为真正例率
偏差与方差(都小才好)
偏差
:度量了学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合程度。
方差
:度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动带来的影响。
1、 以二分类任务为例,假定数据集D包含1000个样本,将其划分为训练集S和测试集T,其中S包含800个样本, T包含200个样本,用S进行训练后,如果模型在T上有50个样本分类错误,那么模型的正确率为75%。
2、PR(Precision-Recall)曲线的横轴和纵轴分别是查全率和查准率。
3、ROC曲线的横轴和纵轴分别是假正例率和真正例率。
6、有多种因素可能导致过拟合,其中最常见的情况是由于_学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的。
7、查准率和查全率是分类任务中常用的性能度量指标,请写出其公式并对这两种指标进行分析。
优化求解方法:最小二乘法、梯度下降法
基于均方误差最小化来进行求解的方法称为最小二乘法
梯度下降法:求解无约束函数的迭代算法
学习率α对梯度下降的影响
α如果太小,梯度下降算法则会下降的很慢
α如果太大,梯度下降算法则不会收敛,发散或震荡。
对数几率回归:解决分类问题
对数几率函数是“Sigmoid函数
”
掌握模型输出的含义
:y=P(y=1|x),给定一个样本x,输出y=1的可能性。
多分类学习
基本思路:“拆解法
”:把多分类任务拆解成若干个二分类任务
一对多
:n个类别,每次将一个类的样例作为正例,所有其他类作为反例来训练n个分类器。
一对一
:n个类别,每次取出两个来训练模型,训练分类器的个数为n(n-1)/2
1、在梯度下降过程中,学习率控制着算法每一轮迭代中的更新步长,如果学习率设置的太大容易振荡,设置太小则收敛速度太慢。
2、均方误差有非常好的几何意义,它对应了常用的欧氏距离。基于均方误差最小化来进行模型求解的方法称为__最小二乘法_。
3、如果使用数据集的全部特征,学习模型在训练集上达到100%的准确率,但在测试集上仅能达到70%左右,这说明存在过拟合问题。
4、训练对数几率回归分类模型,如果在模型中引入正则项,正则化参数会对模型的性能有很大的影响,如果设置的过大则不能缓解过拟合问题,如果设置的过小_容易导致过拟合问题。
5、在预测任务中,给定样本集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_m,y_m )},其中y_i是样本x_i的真实标记。要评估学习器f的性能,就要把学习器预测结果f(x)与真实标记y进行比较。回归任务最常用的性能度量是均方误差,对应的公式为
6. 请分析一对一和一对多策略的特点。
决策树叶节点对应于决策结果,内部节点表示一个特征或属性。
划分选择
学习过程:通过对训练样本的分析来确认划分属性
预测过程:将测试示例从根结点开始,沿着划分属性所构成的判定测试序列下行,直到叶节点。
信息熵
是度量样本集合纯度
最常用的一种指标。
信息熵越小,样本集合的纯度越高。
信息增益
信息增益越大,则意味着使用属性α来进行划分所获得的“纯度提升越大”。
信息增益最大的作为最优划分属性
,信息增益准则对可取值数目较多
的属性有所偏好
信息增益率最小的作为最优划分属性,增益率对可取值数目较少的属性有所偏好。
CART决策树使用基尼指数
来选择划分属性 生成二叉树
。
3. 剪枝处理:两种基本策略预剪枝和后剪枝
预剪枝
: 提前终止某些分支的生长
就是说在决策树的生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶节点。
后剪枝
:生成一颗完全树,再“回头”剪枝,时间开销大
先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
连续属性离散化
,:大于某个数值作为一类,小于某个数值作为另外一类,常用二分法
1、决策树是一类常见的机器学习方法,是基于树结构进行决策的。一般的,一棵决策树包含两类结点:内部节点和叶结点,其中内部节点表示表示一个特征或属性,叶结点表示 决策结果。
2、在决策树学习中,一般情况下,属性a的信息增益越大,则意味着使用属性a来进行划分获得的_纯度提升越大。
3、信息增益准则对_可取值数目较多 的属性有所偏好,增益率准则对_可取值数目较少 的属性有所偏好。
4、在决策树学习中,C4.5决策树算法中采用_二分法_对连续属性进行离散化处理。
5、常用的决策树学习算法有ID3、C4.5和CART,介绍它们采用的特征选择准则是什么?
ID3采用信息增益准则;C4.5采用增益率准则;CART采用基尼指数准则。
6、 ID3怎样基于信息增益划分属性
从根结点开始,计算每一个属性的信息增益,选择信息增益最大的属性作为最优划分属性,然后对子结点递归调用上述过程,生成决策树。
7、请简述并分析两种剪枝策略。(见上面知识点总结)
9、根据表4.1中的西瓜数 据集,计算属性“纹理”的信息增益。
神经元模型:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接
进行传递,神经元接收到的总输入值将与神经元的阈值
进行比较,然后通过“激活函数”
处理以产生神经元的输出。
感知机与多层网络
感知机由两层神经元组成,输入层和输出层,输入层接受外界信号,输出层输出结果。只有一层功能神经元
,学习能力有限。
感知机能容易地实现与或非,不能实现异或运算。
要解决非线性可分问题,要考虑使用多层神经网络。
一般为三层,第一层:输入层; 第二层:隐藏层;第三层:输出层。
隐藏层和输出层都是拥有激活函数的功能神经元。
逆向误差传播算法BP
BP是一个迭代学习算法
,BP算法基于梯度下降
的策略。
BP算法学习能力较强,容易产生过拟合,解决过拟合的方法:
早停
:将数据集分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练
,同时返回具有最小验证集误差的连接权和阈值。提高正则化参数
:在误差目标函数中增加一个用于描述网络复杂度的部分。5.BP算法的过程(简答?)
在(0.1)范围内随机初始化网格中所有连接权和阈值,到输出层产生结果,
计算输出层神经元误差,传到隐藏层,
计算隐藏层神经元误差,然后更新连接权和阈值,
重复此过程直至达到停止条件,输出连接权和阈值确定的多层前馈神经网络。
答案是A
4. M-P神经元模型中,神经元接收来自其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。
5.误差逆传播算法(BP算法)基于梯度下降策略,以目标的负梯度方向对参数进行调整。
6.假定一个单隐层的前馈神经网络,拥有m个输入神经元,n个输出神经元、q个隐层神经元,那么该神经网络中需要确定的连接权重参数有多少个?
Mq+nq+n+q
支持向量机原理
在样本空间中,划分超平面可通过如下线性方程来描述:
不需要求解,但是要知道如何转化成求解约束的最优化问题。
核函数
用于线性不可分
的问题,将样本从原始空间映射到更高维的特征空间,使得样本在这个特征空间内可分。
软间隔和硬间隔的区别:
硬间隔要求所有样本都要满足约束条件;
软间隔:允许支持向量机在一些样本上出错。
正则化:
L0范数:是指向量中非零的元素个数
L1范数:是指向量中各元素绝对值之和
L2范数:是指向量各元素的平方和然后求平方根(非零分量个数尽量稠密
)
都能缓解过拟合问题。
生成式模型,判别式模型有哪些?
生成式模型:贝叶斯分类器。
判别式模型:决策树、BP神经网络、支持向量机。
朴素贝叶斯分类器采用了“属性条件独立性假设
”
贝叶斯决策论考虑如何基于这些概率
和误判损失
来选择最优的类别标记。
贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记。
后验概率
P(C)是类“先验概率”, P(x|c)是样本x相对于类标记C的类条件概率,P(X)是证据因子,不用求。
P(x|c)就转化为如何基于训练集数据D来估计P(C)和P(x|c)
P(C)通过各样本出现频率估计。
EM算法
EM算法提供一种近似计算含有隐变量概率模型的极大似然估计方法。
求解:如果最后函数是收敛的,则不能保证收敛得到全局极大值,能够收敛到局部大值。
1、朴素贝叶斯分类器采用了_属性条件独立性__假设。
2、贝叶斯分类器属于生成式模型,支持向量机属于判别式模型。
3、半朴素贝叶斯分类器的基本想法是适当考虑_一部分属性间的相互依赖信息_,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
4、EM算法提供一种近似计算_含有隐变量概率模型的极大似然估计的方法。
5、EM算法时常用的估计参数隐变量的方法,是一种迭代式的方法,能收敛到局部最优解。
6、在朴素贝叶斯分类器的训练过程中,为了避免其他属性携带的信息被训练集中未出现的属性值抹“抹去”,在估计概率值时通常要进行“平滑”,常用拉普拉斯修正。
集成学习的结果通过投票法产生,即少数服从多数
个体学习器应“好而不同
”,即个体学习器要有一定的“准确性
”,即学习器不能太坏,并且要有“多样性
”。
目前集成学习主要分为两大类:
一类是以boosting
、Adaboost
等算法为代表的,个体学习器间存在强依赖关系,必须串行生成的序列化
方法,它试图不断增强单个学习器的学习能力。
一类是以bagging、“随机森林”(Random Forest)
等算法为代表的,个体学习器之间不存在强依赖关系、可同时生成的并行化
方法。
Boosting的工作机制(简答可能)
(1)先从初始训练集训练出一个基学习器;
(2)根据基学习器的表现对训练样本分布进行调整,使得先前基学习器分错的训练样本在后续得到更多关注,然后再基于调整后的样本分布来训练下一个基学习器;
(3)重复(2),直到基学习器数目达到指定值T,最终将这T个基学习器进行加权组合。
从偏差-方差分解的角度看,Boosting 主要关注降低偏差
Boosting族最著名的算法是AdaBoost
标准Adaboost只适用于二分类问题
Bagging(重)
(1)Bagging的基本流程:(简答?填空?)
通过自助采样法采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行组合。
(2)Bagging采用自助采样法
包外估计
(3) 从偏差-方差分解的角度看,Bagging
主要关注降低方差
(4) Bagging对分类任务采用:简单投票法
Bagging对回归任务采用:简单平均法
随机森林(RF)是Bagging的一个扩展变体
RF在以决策树为基学习器
构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择
。
随机森林多样性体现在:采样随机性;属性选择随机性。
多样性增强的4种方法:
数据样本扰动 —自助采样法
输入属性扰动 —随机子空间算法
输出表示扰动
算法参数扰动
假设基分类器错误率相互独立,则错误率最终会趋于0
结合策略:
平均法:(回归任务)
简单平均法:适用于性能差不多
的
加权平均法:适用于性能相差较大
的
投票法:(分类任务)
1、根据个体学习器的生成方式,目前的集成学习方法大致可以分为哪两类?
个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表是Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging和“随机森林”。
2、 简述随机森林算法,分析其提高基学习器的多样性的策略;
Bagging + 决策树 = 随机森林
随机森林是指利用多棵决策树对样本进行训练并预测的一种算法,是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众数来决定的。随机森林主要是应用于回归和分类这两种场景,又侧重于分类。
Bagging中基学习器的多样性仅通过样本扰动(对初始训练集采样)而来,而随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就导致最终集成的学习器的泛化性能由于个体学习器之间差异度的增加而进一步提升。
3、 简述Boosting算法与Bagging算法,并分析其区别;
4、 简述集成学习中的多样性增强策略;
1)样本扰动
2)输入扰动
3)输出扰动
4)算法参数 扰动
聚类目标:将数据集中的样本划分为若干个通常不相交的子集。
簇内相似度高,簇间相似度低。
原型聚类:k均值算法,学习向量量化,高斯混合聚类算法
原型是指样本空间中具有代表性的点。
k均值算法
流程:(也可能是个简答?不,在考试中它以计算题第一小问的形式出现了)
密度聚类(DBSCAN算法)
层次聚类
数据集的划分可采用“自底向上”的聚合
策略,也可以采用“自顶向下”的分拆
策略。
AGNES
是一种采用自底向上聚合策略
的层次聚类算法。
1.简述K均值算法;(见知识点总结)
2、 给定表9.1西瓜集4.0中的前10个样本,利用K均值算法划分为3个簇,写出具体的聚类过程。(假定取前3个样本作为初始均值向量)
3.常用的原型聚类算法有哪些?
k均值算法、学习向量量化、高斯混合聚类
4.层次聚类算法的数据集划分策略有哪些?
“自底向上”的聚合策略,
“自顶向下”的分拆策略。
简答预测:(不确定不确定)
第九章 k均值计算流程
第八章 Boosting工作机制,bagging基本流程
第五章 BP算法过程
第四章 预剪枝和后剪枝
第二章 简述k折交叉验证法
本次总结仅供参考,欢迎大家指正!