参考网址:http://redstonewill.com/category/written-interview/
机器学习笔试题精选试题一
1. 在线性回归问题中,利用R平方(R-Squared)来判断拟合度:数值越大说明模型拟合的越好。数值在[0 1]之间。
随着样本数量的增加,R平方的数值必然也会增加,无法定量地说明新增的特征有无意义。对于新增的特征,R平方的值可能变大也可能不变,两者不一定呈正相关。
用校正决定系数(Adjusted R-Square): 可以消除样本数量对R-Square的影响,做到了真正的0~1,越大越好。若这个新增的特征是冗余的特征,则系数会变小;是有意义的特征,则系数会增大。
2. 相关系数在[-1 1]之间。
3. 利用最小二乘法进行拟合的时候,使用垂直偏移(vertical offsets);在PCA中使用垂向偏移(perpendicular offsets)。
4. 数据量比较少时,容易出现过拟合,该模型不具备较好的泛化能力;假设空间较小时,容易出现高偏差、低方差,即欠拟合。
机器学习笔试题精选试题二
1. Lasso回归:
数据集的特征是100个(X1,X2,......X100),把其中的一个特征值扩大10倍(例如是特征值X1),然后利用相同的正则化参数对Lasso回归进行修正,则对于特征X1而言,有
特征X1很可能还包括在模型之中。因为它对应的回归系数较小,但不为0,保证仍满足正则化约束。
这种回归(Lasso回归,是普通的线性回归后加上L1正则项)适合于样本数量较少,特征维数较大的情形,便于从较多的特征中进行特征的选择。
2. Ridge回归:
又称为岭回归,是普通的线性回归后加上L2正则项。
3. 相关与线性关系:
相关不一定是线性关系,可能是非线性关系。
相关时若有相关系数r为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系。
相关系数为0是两个变量独立的必要不充分条件。
4. 异常值的判断和处理
目前,人们对于异常值的判别和剔除主要采用物理判别法和统计判别法这两种方法。
物理判别法:判别由于外界干扰、人为误差等造成实测数据值偏离正常结果。
统计判别法:给定置信概率,确定置信限,凡超过此限的误差就认为不属于随机误差的范围,将其视为异常值剔除。
当物理判别法不好判断时,一般采用统计判别法。
5. 用于评价线性模型的指标有:
R-Squared,Adjusted R-Squared, F-Statistics, RMSE(均方根误差 Root Mean Squared Error)/MSE(均方误差 Mean Squared Error )/MAE(绝对误差 Mean Absolute Error)。
机器学习笔试题精选试题三
1. 回归与相关:
对于相关而言,x与y的相关系数同y与x的相关系数是一样的,即是对称的。对于回归而言,则是单向的、非对称的。
2. 知道变量的均值和中值,可以计算出变量的倾斜度吗?
不可以。可以由均值和中值看出分布的倾斜程度。倾斜度是用三阶矩定义的,计算公式是:
\[{S_c} = \frac{{\sum {{{({x_i} - \bar x)}^3}} }}{m}\]
3. 观察次数少,且样本的数量比较少,提高模型的复杂度容易发生过拟合;
观察次数多,即使样本的数量比较多,提高模型的复杂度也不容易发生过拟合。
4. 预测值与残差之间应该不存在任何的函数关系,若存在则说明拟合效果不好。
5. 逻辑回归和线性回归中,损失函数对于权重系数的导数是一样的。
可以参见周志华《机器学习》笔记。
机器学习笔试题精选试题四
1. 在n维空间中(n>1),最适合检测异常值的方法是:马氏距离
马氏距离多用来计算某样本点与数据集的距离,有点在于具有尺度无关性。计算公式如下:
\[{D_M}(\vec x) = \sqrt {{{(\vec x - \vec \mu )}^T}{S^{ - 1}}(\vec x - \vec \mu )} \]
其中,
\[\vec \mu \]是样本均值,S是样本集协方差矩阵。相比于欧式距离,区别在于多了一个协方差矩阵的逆。考虑到不同特征之间的协方差不同,将其进行归一化,使得距离的度量与尺度是无关的。
2. bootstrap:
从总的N个样本中,有放回地抽取n个样本(n 思想:从已有的数据集中模拟出类似但不完全相同的数据集。主要针对于没有足够的数据进行训练的情况。 3. 对于非监督学习,依然存在过拟合。 评价的指标有很多,如 调整兰德指数(Adjusted Rand Score)来评估聚类模型。值越大说明聚类的结果与真实的结果越吻合。 4. 若回归模型中有多重共线性(multicollinearity),可以采用如下措施来解决这一问题而且不丢失太多信息: 1)删除共线性变量中的一个; 2)计算方差膨胀因子(VIF)来检查共线性程度,并采取相应的措施; 3)删除相关变量会遗失信息,我们可以 不删除相关变量,使用正则化的方法来解决多重共线性的问题,如Ridge或Lasso回归。 5.决策树的信息增益 1)计算; 2)可以用“1比特-熵”获得;如果选择一个属性具有很多特征值,那么这个信息增益是有偏差的。 6. SVM模型出现欠拟合,可以采取: 1)增大惩罚参数C的值,C很小时,出错较多;很大的时候出现过拟合(将noise也进行处理)。 2)增大核函数中指数项的绝对值大小,当值较小时,分类较光滑;很大时分类会很复杂(出现分类线是一个个独立的小区域)。这是因为系数越大,对应的核函数越尖锐。 机器学习笔试题精选试题五 1. 对于二元分类,输出是概率值。若将判断为正类的阈值提高,则准确率(Precision)和召回率(Recall)有何变化: 准确率增加或不变,召回率减小或不变。 准确率:预测是正类的样本中,真正为正类的样本所占预测是正类的样本的比例; 召回率:在真实的正类的样本中,被预测出是正类的样本所占的比例。 若提高阈值,则判别为正类的要求提高了,预测是正类的样本可能会不变或者减少,准确率会增加或者不变。由于真实的样本是事先确定的,所以数量是不变的,被预测出是正类的样本的数量可能会不变或者减少,所以召回率会不变或减少。 F1是准确率和召回率的调和平均数。 2. 对于类别不平衡的情况,需要做一些数据处理,如采样、数据合成、惩罚因子加权、一分类。 一分类:即在正负样本分布不均匀的时候,将其看成一分类或者异常检测。 3. 使用原始的非线性可分版本的Soft-SVM优化目标函数,可以设置: C为正无穷来保证得到的模型是线性可分的。理解如下; 1) 正常的线性可分的情况下,对偶形式的拉格朗日乘子有\[{\alpha _n} \ge 0\],在Soft-SVM中对偶形式的拉格朗日乘子有\[0 \le {\alpha _n} \le C\]。当C为正无穷大时,形式是一样的。 2)C越大越希望得到更少的分类错误,当趋近于正无穷时分类误差趋于0,即线性可分。 注:C很大时,将noise算入,即Soft-SVM中出现了过拟合。 4. 支持向量机中与模型的分类能力相关的点只有支持向量(非支持向量与结果是无关的)。 具体的{\alpha _n}的值对结果的影响参照 林轩田的《机器学习技法》。 5. 隐马尔科夫模型(Hidden Markov Model,简称HMM)解决时间序列的问题。