接下来是对于机器学习期末复习题的问答与解析,按照知识点分布包括下面几个部分:
二、模型评估与选择
三、对数几率回归
四、决策树
五、神经网络
六、支持向量机
七、聚类分析
八、K-NN与PCA
2.单选题 (2分)
”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 : ( )
A 以上都不对
B 模型预测准确率已经很高了, 我们不需要做什么了
C 模型预测准确率不高, 我们需要做点什么改进模型
D 无法下结论
答案:D
3.单选题 (2分)
假设你需要调整参数来最小化代价函数(cost function),会使用下列哪项技术?()
A 穷举搜索
B Bayesian优化
C 随机搜索
D 梯度下降
答案:D
4.单选题 (2分)
在数据预处理阶段,我们常常对数值特征进行归一化或标准化(standardization, normalization)处理。这种处理方式理论上不会对下列哪个模型产生很大影响?()
A k-NN
B 决策树
C k-Means
答案:B
k-Means和k-NN都需要使用距离。而决策树对于数值特征,只在乎其大小排序,而非绝对大小。不管是标准化或者归一化,都不会影响数值之间的相对大小。关于决策树如何对数值特征进行划分
6.单选题 (2分)
关于欠拟合(under-fitting),下面哪个说法是正确的()?
A 训练误差较大,测试误差较大
B 训练误差较大,测试误差较小
C 训练误差较小,测试误差较大
答案:A
问题 | 过拟合 | 欠拟合 |
---|---|---|
特征 | 模型在训练集上表现很好,但在测试集上却表现很差(相当于死记硬背)如学习一片叶子,带锯齿的叶片被判定为不是叶子 | 模型复杂度低,模型在训练集上表现很差,没法学习到数据背后的规律,发生在训练刚开始的时候。 |
解决 | 1.获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法 2.采用合适的模型(控制模型的复杂度)3. 降低特征的数量 | 增加网络复杂度或者在模型中增加特征或多次训练 |
14.单选题 (2分)
混淆矩阵可以不能用来评估下面哪类模型的表现?()
A 聚类算法
B 二元分类器
C 多元分类器
答案:A 混淆矩阵总结分类模型,不总结聚类模型
混淆矩阵
混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。
其中矩阵的行表示真实值,矩阵的列表示预测值
15.单选题 (2分)
对于k折交叉验证, 以下对k的说法正确的是 )
A k越大, 不一定越好, 选择大的k会加大评估时间
B 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C 以上所有
D 在选择k时, 要最小化数据集之间的方差
答案:C
在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差。所以一般在做交叉验证时,也有使用标签按比例分配原则。
k折交叉验证
18.单选题 (2分)
下面的交叉验证方法 : () i. 有放回的Bootstrap方法 ii. 留一个测试样本的交叉验证 iii. 5折交叉验证 iv. 重复两次的5折交叉验证 当样本是1000时,下面执行时间的顺序,正确的是:
A ii > iii > iv > i
B ii > iv > iii > i
C iv > i > ii > iii
D i > ii > iii > iv
答案:B
23.单选题 (2分)
对于下面三个模型的训练情况, 下面说法正确的是( ) :
1.第一张图的训练错误与其余两张图相比,是最大的
2.最后一张图的训练效果最好,因为训练错误最小
3.第二张图比第一和第三张图鲁棒性更强,是三个里面表现最好的模型
4.第三张图相对前两张图过拟合了
5.三个图表现一样,因为我们还没有测试数据集
A 1 和 2
B 1, 3 和 4
C 1 和 3
D 5
答案:B 显然
24.单选题 (2分)
在不同的应用任务中,我们可根据任务需求来采用不用的截断点,例如若要重视“查准率”,则可选择排序中靠_____的位置进行截断;若更重视“查全率”,则可选择靠____的位置进行截断. ()
A 后 后
B 前 后
C后 前
D前 前
答案:B
查全率与查准率,P-R曲线,F1值
1.查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜;
查全率(recall):所有的好西瓜中有多少比例被算法挑了出来。
2.T(true)、F(false)、P(positive)、N(negative)的解释:P表示算法预测这个样本为1(好西瓜)、N表示算法预测这个样本为0(坏西瓜);T表示算法预测的和真实情况一样,即算法预测正确,F表示算法预测的和真实情况不一样,即算法预测不对。
TP:正确地标记为正,即算法预测它为好西瓜,这个西瓜真实情况也是好西瓜(双重肯定是肯定);
FP:错误地标记为正,即算法预测它是好西瓜,但这个西瓜真实情况是坏西瓜;
FN:错误地标记为负,即算法预测为坏西瓜,(F算法预测的不对)但这个西瓜真实情况是好西瓜(双重否定也是肯定);
TN:正确地标记为负,即算法标记为坏西瓜,(T算法预测的正确)这个西瓜真实情况是坏西瓜。
所以有:
所以有P-R曲线:
F1度量的准则是:F1值越大算法性能越好。
在一些实际使用中,可能会对查准率或者查全率有偏重,比如:逃犯信息检索系统中,更希望尽量少的漏掉逃犯,此时的查全率比较重要。会有下面F1的一般形式。
当beta>1时查全率重要,beta<1时查准率重要
25.单选题 (2分)
下面哪个统计量可能大于1?()
A logloss
B ROC AUC
C 皮尔逊相关系数
答案:A
y表示样本的真实标签(1或0),p 表示模型预测为正样本的概率。
1.ROC(受试者工作特征)
评价”一般情况”下泛化性能的好坏
所有的负样本中有多少被预测为正例,称为”假正例率”,是ROC曲线的横坐标
等同于recall,称为”真正例率”,是ROC曲线的纵坐标
2.AUC
可以看做ROC曲线和X轴(即FPR)围成的面积。AUC考虑样本预测的排序质量,因此与样本误差有紧密联系,
30.单选题 (2分)
下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?( )
A 准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B 正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高
C 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
D 为了解决准确率和召回率冲突问题,引入了F1分数
答案:B F1可以大于1,见24公式
41.多选题 (4分)
自助法是模型训练中重要的方法,它适用于哪种训练集D?()
A 训练样本有明显的特征差异
B 难以有效划分训练/测试集
C 数据集较大
D 数据集较小
答案:BD 见18题
43.多选题 (4分)
在现实机器学习当中首先进行特征选择的原因中正确的是 ( )
A 保留多样特征
B 降低学习任务难度
C 减轻维数灾难问题
D 去除不相关特征
答案:BCD
44.多选题 (4分)
数据集D进行适当处理产生出训练集S和测试集T的方法有()
A 交叉验证法
B 留出法
C 自助法
答案:ABC
5.单选题 (2分)
线性回归模型一般简写为y=ωTx +b,若将输出标记的对数作为模型逼近的目标,则写成lny=ωTx +b在形式上为_____,实质上为____.()
A 线性回归 非线性函数映射
B 线性回归 线性函数映射
C 非线性回归 线性函数映射
D 非线性回归 非线性函数映射
答案:A
在数学中这是一种经典的处理方法即对等式两端取对数,在物理实验中也可通过相关方法画出线形图,如匀加速运动中位移与时间的二次方成线性关系。但在实际中是非线性的。
9.单选题 (2分)
对应的模型称为“对数几率回归”,变化为ln1-y =ωTx +b,若将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值“几率反应了x作为( )的相对可能性”
A 反例
B 正例
答案:B 详见西瓜书P58 公式(3.21)
20.单选题 (2分)
当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现 3 对变量的相关系数是(Var1 和 Var2, Var2 和 Var3, Var3 和 Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:
31.单选题 (2分)
对数几率回归模型的优点有:( )
A 可得到近似概率预测
B 可被许多数值优化算法直接用于求取最优解
C 无需事先假设数据分布
D 以上都是
答案:D
38.单选题 (2分)
关于Logistic回归和SVM,以下说法错误的是?( )
A Logistic回归的目标函数是最小化后验概率
B Logistic回归可用于预测事件发生概率的大小
C SVM可以有效避免模型过拟合
D SVM的目标的结构风险最小化
答案:A
26.单选题 (2分)
决策树学习算法对付“过拟合”的主要手段是( )
A增加树的深度
B剪枝
C增加树的广度
答案:B
决策树——有监督学习
1.过程
特征选择
特征选择决定了使用哪些特征来做判断。在训练数据集中,每个样本的属性可能有很多个,不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征,也就是分类能力较强的特征。
在特征选择中通常使用的准则是:信息增益。
首先求出信息熵:
再求出信息增益:
其中Entropy为信息熵,减数为条件熵。
CART算法使用基尼系数。
决策树生成
选择好特征后,就从根节点触发,对节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点使用相同的方式生成新的子节点,直到信息增益很小或者没有特征可以选择为止。
决策树剪枝
剪枝的主要目的是对抗「过拟合」,通过主动去掉部分分支来降低过拟合的风险。
1.预剪枝
预剪枝(pre-pruning):预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当前结点的划分不能带来决策树模型泛华性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点。
判断的标准就是看划分前后的泛化性能是否有提升,也就是如果划分后泛化性能有提升,则划分;否则,不划分。
2.后剪枝
后剪枝(post-pruning):后剪枝就是先把整颗决策树构造完毕,然后自底向上的对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛华性能的提升,则把该子树替换为叶结点。
2.优点
决策树易于理解和解释,可以可视化分析,容易提取出规则;
可以同时处理标称型和数值型数据;
比较适合处理有缺失属性的样本;
能够处理不相关的特征;
测试数据集时,运行速度比较快;
在相对短的时间内能够对大型数据源做出可行且效果良好的结果
3.缺点
容易发生过拟合(随机森林可以很大程度上减少过拟合);
容易忽略数据集中属性的相互关联;
对于那些各类别样本数量不一致的数据,在决策树中,进行属性划分时,不同的判定准则会带来不同的属性选择倾向;信息增益准则对可取数目较多的属性有所偏好(典型代表ID3算法),而增益率准则(CART)则对可取数目较少的属性有所偏好,但CART进行属性划分时候不再简单地直接利用增益率尽心划分,而是采用一种启发式规则)(只要是使用了信息增益,都有这个缺点,如RF)。
ID3算法计算信息增益时结果偏向数值比较多的特征。
34.单选题 (2分)
目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1],目标变量的熵是多少? ()
A -(5/8 log(5/8) + 3/8 log(3/8))
B 3/8 log(5/8) + 5/8 log(3/8)
C 5/8 log(3/8) – 3/8 log(5/8)
D 5/8 log(5/8) + 3/8 log(3/8)
答案:A
在通信原理中有这样一个概念:信息量。如果一个事件发生的概率越大,则信息量越小,反之如果发生的概率越小则信息量越大。比如你的老师告诉你下节课要进行测验,明天沙漠地区会有一场暴雨……。在数学中使用概率的负对数来描述:
其中底数可以取2,e,10等等,对应的单位分别为比特,奈特,哈莱特,而信息熵可以看成
1.单选题 (2分)
卷积神经网络(Convolutional Neural Network)中通常包含卷积层和全链接层,它们的主要作用分别是 ( )
A 进行分类、提取特征
B 提取特征、提取特征
C 提取特征、进行分类
神经网络
由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应
卷积神经网络(CNN)
学习方法
使用梯度下降算法进行学习,卷积神经网络的输入特征需要进行标准化处理
构成
卷积神经网络和全连接神经网络相同,主要由输入层、隐藏层、输出层组成,隐藏层中又包括卷积层(核心层),ReLU层、池化(Pooling)层和全连接层。
卷积层
卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)。
卷积层参数包括卷积核大小、步长和填充,三者共同决定了卷积层输出特征图的尺寸,是卷积神经网络的超参数 。其中卷积核大小可以指定为小于输入图像尺寸的任意值,卷积核越大,可提取的输入特征越复杂 。
池化层
在卷积层中处理后的特征图传送至池化层进行特征选择和信息过滤
全连接层&输出层
对提取的特征进行非线性组合(分类)以得到输出,输出层使用逻辑函数或归一化指数函数输出分类标签
7.单选题 (2分)
下图显示,当开始训练时,误差一直很高,这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况,我们可以采取下面哪种策略?()
A 增加参数数目,这样神经网络就不会卡在局部最优处
B 其他都不对
C 一开始将学习速率减小10倍,然后用动量项(momentum)
D 改变学习速率,比如一开始的几个训练周期不断更改学习速率
答案:D 可以将陷于局部最小值的神经网络提取出来
8.单选题 (2分)
如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减小。这种陈述正确还是错误? ()
A 错误 B 正确
答案:A 层数增加可能导致过拟合,从而可能引起错误增加
多层感知机(MLP,Multilayer Perceptron)
也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构.
10.单选题 (2分)
考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?()
A 把除了最后一层外所有的层都冻住,重新训练最后一层
B 对新数据重新训练整个模型
C 对每一层模型进行评估,选择其中的少数来用
D 只对最后几层进行调参(fine tune)
答案:D
如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化.
若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可;
但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)
11.单选题 (2分)
梯度下降算法的正确步骤是什么?
1.计算预测值和真实值之间的误差
2. 重复迭代,直至得到网络权重的最佳值
3.把输入传入网络,得到输出值
4. 用随机值初始化权重和偏差
5. 对每一个产生误差的神经元,调整相应的(权重)值以减小误差
A 1, 2, 3, 4, 5
B 5, 4, 3, 2, 1
C 3, 2, 1, 5, 4
D 4, 3, 1, 5, 2
答案:D
梯度下降算法
16.单选题 (2分)
构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?()
A 都不是
B 循环神经网络
C 限制玻尔兹曼机
D 卷积神经网络
答案:B
循环神经网络(RNN)
17.单选题 (2分)
在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?()
A 赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重
B 随机赋值,听天由命
C 以上都不正确的
D 搜索每个可能的权重和偏差组合,直到得到最佳值
答案:D 梯度下降就是这样式的
21.单选题 (2分)
在一个神经网络中,下面哪种方法可以用来处理过拟合?()
A Dropout
B 正则化(regularization)
C分批归一化(Batch Normalization)
D 都可以
答案:D
DropOut
dropout 是指在深度学习网络的训练过程中(CNN),按照一定的概率将一部分神经网络单元暂时从网络中丢弃,相当于从原始的网络中找到一个更瘦的网络,增加泛化能力和鲁棒性
正则化
目的:防止模型过拟合
原理:在损失函数上加上某些规则(限制),缩小解空间,从而减少求出过拟合解的可能性
分批归一化
批量归一化可以看作在每一层输入和上一层输出之间加入了一个新的计算层,对数据的分布进行额外的约束,从而增强模型的泛化能力。但是批量归一化同时也降低了模型的拟合能力,
22.单选题 (2分)
对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题?()
A感知机
B循环神经网络
C卷积神经网络
D多层感知机
答案:C
神经网络 | 应用 |
---|---|
感知机(ANN,人工神经网络) | 无人驾驶,语音识别 |
循环神经网络(NLP) | 语音识别 、语言建模、机器翻译 等领域有应用,也被用于各类 时间序列 预报 |
卷积神经网络(CNN) | 图像识别领域 |
多层感知机(DNN) | 语音,图像,自然语言 (文本)处理 |
28.单选题 (2分)
下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)()
A Dropout 的比例增加,模型能力增加
B都不正确
C学习率增加,模型能力增加
D隐藏层层数增加,模型能力增加
答案:D 太瘦不好,走的太快不好
35.单选题 (2分)
神经网络模型(Neural Network)因受人类大脑的启发而得名。神经网络由许多神经元()组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,请问下列关于神经元的描述中,哪一项是正确的?()
A 每个神经元可以有多个输入和一个输出
B 上述都正确
C 每个神经元可以有一个输入和一个输出
D 每个神经元可以有一个输入和多个输出
E 每个神经元可以有多个输入和多个输出
答案:B
36.单选题 (2分)
对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,二是都设成 0,下面哪个叙述是正确的?()
A 其他选项都不对
B 没啥问题,神经网络会正常开始训练
C 神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西
D 神经网络不会开始训练,因为没有梯度改变
答案:C
令所有权重都初始化为 0 这个一个听起来还蛮合理的想法,也许是一个我们假设中最好的一个假设了, 但结果是错误的,因为如果神经网络计算出来的输出值都一个样,那么反向传播算法计算出来的梯度值一样,并且参数更新值也一样(w=w−α∗dw)。更一般地说,如果权重初始化为同一个值,网络即是对称的, 最终所有神经元最后都会变成识别的同样的东西。
37.单选题 (2分)
增加卷积核的大小对于改进卷积神经网络的效果是必要的吗?()
A 是
B 没听说过
C 否
D 不知道
卷积核越大,可提取的输入特征越复杂 。
39.单选题 (2分)
在选择神经网络的深度时,下面哪些参数需要考虑?()
1 神经网络的类型(如 MLP,CNN)
2 输入数据
3 计算能力(硬件和软件能力决定)
4 学习速率
5 映射的输出函数
A 1,3,4,5
B 2,3,4,5
C 1,2,4,5
D都需要考虑
答案:D
40.单选题 (2分)
在感知机中的任务顺序是什么?
1 随机初始化感知机的权重
2 去到数据集的下一批
3 如果预测值和输出不一致,则调整权重
4 对一个输入样本,计算输出值:
A 4, 3, 2, 1
B 1, 4, 3, 2
C 1, 2, 3, 4
D 3, 1, 2, 4
答案:B
13.单选题 (2分)
关于SVM泛化误差描述正确的是()?
A SVM对未知数据的预测能力
B 超平面与支持向量之间距离
C SVM的误差阈值
答案:A 统计学中的泛化误差是指对模型对未知数据的预测能力。
支持向量机
27.单选题 (2分)
SVM在下列那种情况下表现糟糕()?
A 线性可分数据
B 含噪声数据与重叠数据点
C 清洗过的数据
答案:B
当数据中含有噪声数据与重叠的点时,要画出干净利落且无误分类的超平面很难
29.单选题 (2分)
SVM中的核技巧(Kernel trick)的作用包括以下哪项()?
A 特征降维
B 特征升维
C 防止过拟合
答案:B
核技巧使用核函数将样本从原特征空间映射到更高维的空间,使得样本在更高维的空间中线性可分
32.单选题 (2分)
SVM的效率依赖于():
A 核参数
B 软间隔参数
C 以上所有
D 核函数的选择
答案:C 分别能够提高效率,降低误差和防止过拟合。
核函数
SVM核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)
软间隔
允许SVM在一些样本上出错
核参数?
12.单选题 (2分)
K-Mean算法在()图上的聚类效果最好?()
A 平行一条直线
B 交叉错乱
C 凹形
D 凸形
答案:D K-means聚类时会找尽量接近的点,凹型图(U形图的两端可能会被聚到一起)
K-means算法
42.多选题 (4分)
下列关于聚类分析的说法中正确的有()
A 类与类之间的距离就是轮廓系数
B 在聚类过程中只需要考虑点与点之间的聚类,根据点与点之间的距离进行分类
C 聚类分析的一般规则是将距离较小的点归为一类,将距离较大的点归为不同的类
D 在聚类过程中,既要考虑点与点之间的距离,也要考虑类与类之间的距离
答案:ACD
19.单选题 (2分)
对于 PCA 说法正确的是 : ( )
A 1, 3 and 4
B 1 and 3
C 3 and 4
D 2 and 4
E 1, 2 and 4
答案:E
主成分分析-PCA
假定有 n 个样本,每个样本共有 p个变量,构成一个 n*p 阶的数据矩阵 .
当p 较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
PCA是一个非监督学习
33.单选题 (2分)
以下几种模型方法属于判别式模型的有( )
A 隐马尔科夫模型
B 混合高斯
C 朴素贝叶斯
D KNN
答案:D
判别式模型
线性回归、逻辑回归、线性判别、集成学习、支持向量机、神经网络、条件随机场、最大熵模型
生成式模型
朴素贝叶斯、隐含马尔科夫模型、限制玻尔兹曼机、高斯混合以及其他混合模型
45.多选题 (4分)
PCA说法正确的是()
A 使所有样本点在新坐标系下尽可能密集
B PCA降维会丢掉部分信息
C 使所有样本点在新坐标系下尽可能分开
答案:BC
其中难免有错误与纰漏之处,亦有引用,若有涉及,请及时私信