1. 习题1(SPSS基础)
SPSS的界面中,以下是主窗口是( )
A.语法编辑窗
B.数据编辑窗口
C.结果输出窗口
D.脚本编辑窗口
正确答案:B
解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。
2. 习题2(分类与聚类)
以下哪些方法不可以直接来对文本分类?
A.Kmeans
B.决策树
C.支持向量机
D.KNN
正确答案: A
解析:
聚类是无监督的,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。
复习一下K-means算法,主要分为赋值阶段和更新阶段。算法步骤:
(1)随机选择K个点作为初始的质心
(2)将每个点指配到最近的质心
(3)重新计算簇的质心,直到质心不再发生变化 。
K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。
其他3个都是常见的分类方法。
3. 习题3(特征选择)
机器学习中做特征选择时,可能用到的方法有?
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵
正确答案:ABCD
解析:
卡方是传统的常见的数理统计学上的特征,信息增益在决策树中运用的特别多,互信息在新词发现上有用到,而交叉熵最常见的就是损失函数。
具体的,可以参考《卡方详解》、《信息增益详解》、《期望交叉熵详解》、《互信息详解》。另外,还有其他特征可以选择,详见《特征选择汇总》。
4. 习题4(分类与聚类)
以下描述错误的是:
A.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D.聚类分析可以看作是一种非监督的分类。
正确答案:ABC
解析:
A. SVM的策略是最大间隔分类器。
B. 簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。
C. 训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。
5. 习题5(先验概率)
统计模式分类问题中,当先验概率未知时,可以使用()
A.最小最大损失准则
B.最小误判概率准则
C.最小损失准则
D.N-P判决
正确答案:AD
解析:
A. 考虑p(wi)p(wi)变化的条件下,是风险最小
B. 最小误判概率准则, 就是判断p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2w1和w2为两分类,根据贝叶斯公式,需要用到先验知识。
C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率。
D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式。
6. 习题6(Nave Bayes)
Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是
A. 各类别的先验概率P(C)是相等的
B. 以0为均值,sqr(2)/2为标准差的正态分布
C. 特征变量X的各个维度是类别条件独立随机变量
D. P(X|C) 是高斯分布
正确答案:C
朴素贝叶斯的条件就是每个变量相互独立
7. 习题7(HMM基础)
在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( )
A. EM算法
B. 维特比算法
C. 前向后向算法
D. 极大似然估计
正确答案:D
解析:EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
故应选D