错题记录(1)-机器学习

1、HMM、CRF
错题记录(1)-机器学习_第1张图片
隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM模型是对转移概率和表现概率直接建模,统计共现概率。
MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,但MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。
CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置(label bias)的问题。

CRF模型对于HMM和MEMM模型的优点:
a)与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)
b)与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。
c)与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
CRF模型对于HMM和MEMM模型的缺点:训练代价大、复杂度高

2、降维
错题记录(1)-机器学习_第2张图片
lasso通过参数缩减达到降维的目的;
线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维;
小波分析有一些变换的操作降低其他干扰可以看做是降维;
Laplacian Eigenmaps是用graph的角度去构建数据之间的关系,它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近。Laplacian Eigenmaps可以反映出数据内在的流形结构。
http://www.36dsj.com/archives/26723

3、影响聚类算法效果的主要原因有:
特征选取、模式相似性测度、分类准则,与已知样本质量无关(使用的是无标注数据)

4、以下说法正确的有:
(1)SVM对噪声(如来自其他分布的噪声样本)鲁棒 F
SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。
(2)在AdaBoost算法中所有被分错的样本的权重更新比例相同 T
AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。
(3)Boost和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重。 F
Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是有权重的,Bagging的各个预测函数可以并行生成,而Boosing的各个预测函数只能顺序生成。

5、一元线性回归的基本假设有
1随机误差项是一个期望值或平均值为0的随机变量;
2对于解释变量的所有观测值,随机误差项有相同的方差;
3随机误差项彼此不相关;
4解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。 当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

6、处理缺失值:估算、整例删除、变量删除、成对删除

7、在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(precision=TP/(TP+FP),recall=TP/(TP+FN))
Accuracy:(TP+TN)/all
F-value:2*recall*precision/(recall+precision)
G-mean:sqrt(precision*recall)
AUC:曲线下面积

8、

你可能感兴趣的:(面试,机器学习)