机器学习试题

1. 习题1(SPSS基础)

SPSS的界面中,以下是主窗口是( )

A.语法编辑窗

B.数据编辑窗口

C.结果输出窗口

D.脚本编辑窗口

 

正确答案:B

 

解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。

 

2. 习题2(分类与聚类)

以下哪些方法不可以直接来对文本分类?

A.Kmeans

B.决策树

C.支持向量机

D.KNN

 

正确答案: A

 

解析:

 

聚类是无监督的,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。

 

复习一下K-means算法,主要分为赋值阶段和更新阶段。算法步骤:

 

(1)随机选择K个点作为初始的质心

 

(2)将每个点指配到最近的质心

 

(3)重新计算簇的质心,直到质心不再发生变化 。

 

K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。

其他3个都是常见的分类方法。

3. 习题3(特征选择)

机器学习中做特征选择时,可能用到的方法有?

 

A.卡方

B.信息增益

C.平均互信息

D.期望交叉熵

 

正确答案:ABCD

 

解析:

 

卡方是传统的常见的数理统计学上的特征,信息增益在决策树中运用的特别多,互信息在新词发现上有用到,而交叉熵最常见的就是损失函数。

 

具体的,可以参考《卡方详解》、《信息增益详解》、《期望交叉熵详解》、《互信息详解》。另外,还有其他特征可以选择,详见《特征选择汇总》。

 

4. 习题4(分类与聚类)

以下描述错误的是:

A.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)

B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

C.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

D.聚类分析可以看作是一种非监督的分类。

 

正确答案:ABC

 

解析:

 

A. SVM的策略是最大间隔分类器。

 

B. 簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。

 

C. 训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。

 

5. 习题5(先验概率)

统计模式分类问题中,当先验概率未知时,可以使用()

A.最小最大损失准则

B.最小误判概率准则

C.最小损失准则

D.N-P判决

 

正确答案:AD

 

解析:

 

A. 考虑p(wi)p(wi)变化的条件下,是风险最小

 

B. 最小误判概率准则, 就是判断p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2w1和w2为两分类,根据贝叶斯公式,需要用到先验知识。

 

C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率。

 

D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式。

 

6. 习题6(Nave Bayes)

Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是

A. 各类别的先验概率P(C)是相等的

B. 以0为均值,sqr(2)/2为标准差的正态分布

C. 特征变量X的各个维度是类别条件独立随机变量

D. P(X|C) 是高斯分布

 

正确答案:C

 

朴素贝叶斯的条件就是每个变量相互独立

 

7. 习题7(HMM基础)

在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( )

A. EM算法

B. 维特比算法

C. 前向后向算法

D. 极大似然估计

 

正确答案:D

 

解析:EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法

维特比算法: 用动态规划解决HMM的预测问题,不是参数估计

前向后向:用来算概率

极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数

故应选D

 

 

你可能感兴趣的:(机器学习,数据结构与算法,集成学习)