机器学习笔试、面试题 七

1、若两个变量相关,它们之间一定有线性关系吗?
A 是
B 否

正确答案是: B

解析:不是必要条件,二者可以没有线性关系

2、相关变量的相关系数可以为零,对吗?
A 是
B 否

正确答案是:A

3、假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Y。在数据中加入新的特征值,则下列哪一项是正确的?
提示:其余参数是一样的
A 训练精度总是下降
B 训练精度总是上升或不变
C 测试精度总是下降
D 测试精度总是上升或不变

正确答案是: B

解析:向模型中加入更多特征值会提高训练精度,低偏差;如果特征值是显著的,测试精度会上升

4、下图显示了由X预测Y的回归线,图上的值展示了每个预期的离差,请据此计算SSE(残差平方和)

机器学习笔试、面试题 七_第1张图片

A 3.02
B 0.75
C 1.01
D 以上都不对

 

正确答案是:A

解析:SSE是预估误差的平方之和,所以SSE = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02

5、众所周知,身高体重呈正相关。忽略图表大小(变量被标准化了)下列两张图哪张更像描绘身高(X轴)体重(Y轴)的图表

机器学习笔试、面试题 七_第2张图片

A 图2
B 图1
C 两张都是
D 无法确定

正确答案是:A

解析:图2很明显更好的展现了身高体重之间的联系,个体身高更高,体积就越大,体重就相应越大,所以预期身高体重是正相关的。右图是正相关而左图是负相关。

6、 假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Y。在数据中加入新的特征值,则下列哪一项是正确的?
提示:其余参数是一样的
A 训练精度总是下降
B 训练精度总是上升或不变
C 测试精度总是下降
D 测试精度总是上升或不变

正确答案是:B

解析:向模型中加入更多特征值会提高训练精度,低偏差;如果特征值是显著的,测试精度会上升

1、假设用一个复杂回归模型拟合一个数据集,使用带固定参数lambda的Ridge回归来减小它的复杂度,下列哪项描述了偏差和方差与lambda的关系?
A 对于非常大的lambda,偏差很小,方差很小
B 对于非常大的lambda,偏差很小,方差很大
C 对于非常大的lambda,偏差很大,方差很小
D 对于非常大的lambda,偏差很大,方差很大

正确答案是:C

解析:Lambda很大表示模型没有那么复杂,这种情况下偏差大,方差小

2、假设用一个复杂回归模型拟合一个数据集,使用带固定参数lambda的Ridge回归来减小它的复杂度,下列哪项描述了偏差和方差与lambda的关系?
A 对于非常小的lambda,偏差很小,方差很小
B 对于非常小的lambda,偏差很小,方差很大
C 对于非常小的lambda,偏差很大,方差很小
D 对于非常小的lambda,偏差很大,方差很大

正确答案是: B

解析:Lambda很小表示模型复杂,这种情况下偏差小,方差大,模型会过拟合数据。

3、关于Ridge回归,下列哪项正确?
1.lambda为0时,模型作用类似于线性回归模型
2.lambda为0时,模型作用与线性回归模型不相像
3.当lambda趋向无穷,会得到非常小,趋近0的相关系数
4.当lambda趋向无穷,会得到非常大,趋近无穷的相关系数
A 1和3
B 1和4
C 2和3
D 2和4

正确答案是:A

解析:当lambda为0时我们得到了最小的最小二乘解;当lambda趋近无穷时,会得到非常小、趋近0的相关系数。

4、下列三张残差图,哪张与其它相比是最糟糕的模型?

机器学习笔试、面试题 七_第3张图片

提示:
1.所有残差都被标准化了
2.这些图是关于预期值和残差的
A 1
B 2
C 3
D 1和2

正确答案是:C

解析:预期值和残差之间应该没有任何关系,若果有则说明模型未能完美捕获数据信息。
5、下列哪一种回归方法的相关系数没有闭式解?
A Ridge回归
B Lasso回归
C Ridge回归 and Lasso回归
D 两者都不是

正确答案是: B

解析:Lasso不允许闭式解,L1-penalty使解为非线性的,所以需要近似解

6、参考如下数据集,移除哪一个黑点将会对回归拟合线(黑虚线所示)产生最大影响

机器学习笔试、面试题 七_第4张图片

A a
B b
C c
D d 

正确答案是:D

解析:线性回归对数据中的异常值敏感,虽然C也是给定数据区间内的异常值,但它离回归拟合线很近,所以不会造成太多影响

7、在简单线性回归模型中(单自变量),如果改变输入变量1单元,输出变量会变化多少?
A 1单元
B 无变化
C 截距值
D 斜率值

正确答案是:D

解析:简单线性回归公式为Y=a+bx,如果给x增加1,y就变成了a+b(x+1),即y增加了b

8、逻辑回归是输出结果落在[0,1]区间内,下列哪个函数用于转换概率,使其落入[0,1]?
A Sigmoid
B Mode
C Square
D Probit

正确答案是:A

解析:Sigmoid函数用于转换输出结果,使之落在逻辑回归区间[0,1]内
9、考虑线性回归和逻辑回归中的重量/相关系数,关于cost函数的偏导,下列哪一项是正确的?
A 都不一样
B 都一样
C 无法确定
D 以上都不对

正确答案是: B

解析:参考这个链接:http://feature-space.com/2011/10/28/logistic-cost-function-derivative/

10、假设使用逻辑回归模型处理n元分类问题,可以用到One-vs-rest方法,则下列哪一项是正确的?
A 在n元分类问题中,需要拟合n个模型
B 为了分类为n类,需要拟合n-1个模型
C 为了分类为n类,只需要拟合1个模型
D 都不正确

正确答案是:A,您的选择是: B

解析:如果有n类,就有n个分散的逻辑回归需要拟合,每一类的概率都是基于其余类来预测的。以三类分类(-1,0,1)为例,需要训练三个逻辑回归分类器:

1. -1 vs 0 and 1

2.0 vs -1 and 1

3.1 vs 0 and -1

2、下列哪一个项对欠拟合和过拟合的权衡影响最大?
A 多项式次数
B 是否通过矩阵倒置或梯度下降来学习权重
C 使用常数项

正确答案是:A

解析: 选择正确的多项式次数在回归拟合中扮演重要角色,如果选择的次数太高,过拟合的可能性将大大提高。

3、假设有如下一组输入并输出一个实数的数据,则线性回归(Y = bX+c)的留一法交叉验证均方差为?

A 10/27
B 20/27
C 50/27
D 49/27

正确答案是:D

解析:我们需要计算每个交叉验证点的残差,拟合后得到两点连线和一点用于交叉验证

 留一法交叉验证均方差为(2^2 +(2/3)^2 +1^2) /3 = 49/27。

4、下列哪一项关于极大似然估计(MLE)的说法是正确的?
1.MLE并不总是存在
2.MLE一直存在
3.如果MLE存在,它可能不特异
4.如果MLE存在,它一定是特异的
A 1 and 4
B 2 and 3
C 1 and 3
D 2 and 4

正确答案是:C

解析: MLE可能不是一个转折点,即它可能不是一个似然函数的一阶导数消失的点。 MLE可能并不特异。

机器学习笔试、面试题 七_第5张图片

5、假设线性回归模型完美拟合训练数据(即训练误差为零),则下列哪项是正确的?
A 测试误差一定为零
B 测试误差一定不为零
C 以上都不对

正确答案是:C

解析: 如果测试数据无干扰,则测试误差可能为零。换言之,如果测试数据是训练数据的典型代表,测试误差即为零,但这种情况并不总是出现。

6、在线性回归问题中,我们用R方“R-squared”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的?
A 如果R方上升,则该变量是显著的
B 如果R方下降,则该变量不显著
C 单单R方不能反映变量重要性,不能就此得出正确结论
D 都不正确

正确答案是:C

解析: 单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会上升或维持不变。但在“调整R方”的情况下这也有误(如果特征值显著的话,调整R方会上升)。

7、下列关于回归分析中的残差表述正确的是:
A 残差的平均值总为零
B 残差的平均值总小于零
C 残差的平均值总大于零
D 残差没有此类规律

正确答案是:C

解析: 残差总是为正的,BD不正确.因此回归的残差之和一般情况总是大于为零,故而平均值也大于零。因为模型很少情况下做到完全拟合,A不正确。

8、下列哪一项说明了X,Y之间的较强关系?
A 相关系数为0.9
B Beta系数为0的空假设的p-value是0.0001
C Beta系数为0的空假设的t统计量是30
D 都不对

正确答案是:A

解析: 变量间的相关系数为0说明了变量间的较强关系;另一方面,p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下,哪怕弱影响都可能是显著的。

9、在导出线性回归的参数时,我们做出下列哪种假定?

1.因变量y和自变量x的真实关系是线性的
2.模型误差是统计独立的
3.误差通常服从一个平均值为零,标准差恒定的分布
4.自变量x是非随机的,无错的
A 1,2 and 3
B 1,3 and 4
C 1 and 3
D 以上都对

正确答案是:D

解析: 当导出回归参数时,我们做出以上全部4种假设,缺少任何一种,模型都会出错。

10、为了检验连续变量x,y之间的线性关系,下列哪种图最合适?
A 散点图
B 条形图
C 直方图
D 都不对

正确答案是:A

解析: 为了检验连续变量的线性关系,散点图是最好的选择,可以看出一个变量如何关于另一个变量变化。散点图反映两个定量变量之间的关系。

 

你可能感兴趣的:(机器学习面试题)