1、下列属于无监督学习的是:
正确答案: A
A、k-means
B、SVM
C、最大熵
D、CRF
简单来说,基于已知类别的样本调整分类器的参数,使其达到所要求性能的过程,称为监督学习;对没有分类标记的训练样本进行学习,以发现训练样本集中的结构性知识的过程,成为非监督学习。
其中,k-means为是最为经典的基于划分的无监督学习聚类方法。
2、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
正确答案: D
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征 S
D、SVM算法中使用高斯核/RBF核代替线性核
避免过拟合的方法:正则化方法,强制减少参数,增大训练数据集。
对于B,过拟合是太多的参数引起的。神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。
对于D,svm高斯核函数比线性核函数模型更复杂,容易过拟合
径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。
3、下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?
正确答案: C
A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
C、正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高
D、为了解决准确率和召回率冲突问题,引入了F1分数
解析:
对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
由此:
精准率定义为:P = TP / (TP + FP) 召回率定义为:R = TP / (TP + FN) F1值定义为: F1 = 2 P R / (P + R)
精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。
4、以下哪个是常见的时间序列算法模型
正确答案: C
A、RSI
B、MACD
C、ARMA
D、KDJ
时间序列算法模型是指采用某种算法(可以是神经网络 、ARMA 等)模拟历史数据,找出其中的变化规律。
回归滑动平均模型(ARMA 模型,Auto-Regressive and Moving Average Model)是研究时间序列的重要方法,由自回归模型(AR模型)与滑动平均模型(MA模型)为基础混合构成。
5、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()
正确答案: B
A、EM算法
B、维特比算法
C、前向后向算法
D、极大似然估计
6、数据清理中,处理缺失值的方法是?
正确答案: A B C D
A、估算
B、整例删除
C、变量删除
D、成对删除
数据清理中,处理缺失值的方法有两种:
删除法:
1)删除观察样本
2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除
3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析
4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等
成对删除与改变权重为一类
估算与查补法为一类
7、机器学习中L1正则化和L2正则化的区别是?
正确答案: A D
A、使用L1可以得到稀疏的权值
B、使用L1可以得到平滑的权值
C、使用L2可以得到稀疏的权值
D、使用L2可以得到平滑的权值
8、影响聚类算法效果的主要原因有:( )?
正确答案: A B C
A、特征选取
B、模式相似性测度
C、分类准则
D、已知类别的样本质量
先分类后聚类,所以C是对的
D之所以不正确,是因为聚类是对无类别的数据进行聚类,不使用已经标记好的数据。
9、机器学习中做特征选择时,可能用到的方法有?
正确答案: A B C D
A、卡方
B、信息增益
C、平均互信息
D、期望交叉熵