1 |
关于 Logit 回归和 SVM 不正确的是 |
简单 |
Logit 回归目标函数是最小化后验概率 |
Logit 回归可以用于预测事件发生概率的大小 |
SVM 目标是结构风险最小化 |
SVM 可以有效避免模型过拟合 |
|
|
A |
2 |
是否能用神经网络算法设计逻辑回归算法? |
简单 |
是 |
否 |
|
|
|
|
A |
3 |
关于支持向量机 SVM,下列说法错误的是 |
简单 |
L2 正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力 |
Hinge 损失函数,作用是最小化经验分类错误 |
分类间隔为,||w||代表向量的模 |
当参数 C 越小时,分类间隔越大,分类错误越多,趋于欠学习 |
|
|
C |
4 |
决策树的父节点和子节点的熵的大小关系是什么? |
简单 |
决策树的父节点更大 |
子节点的熵更大 |
两者相等 |
根据具体情况而定 |
|
|
B |
5 |
以下哪种方法属于判别式模型(discriminative model) |
简单 |
隐马模型(HMM) |
朴素贝叶斯 |
LDA |
支持向量机 |
|
|
D |
6 |
下面关于 ID3 算法中说法错误的是 |
简单 |
ID3 算法要求特征必须离散化 |
信息增益可以用熵,而不是 GINI 系数来计算 |
选取信息增益最大的特征,作为树的根节点 |
ID3 算法是一个二叉树模型 |
|
|
D |
7 |
以下属于欧式距离特性的有 |
简单 |
旋转不变性 |
尺度缩放不变性 |
不受量纲影响的特性 |
|
|
|
A |
8 |
如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有 |
简单 |
已知类别样本质量 |
分类准则 |
量纲 |
|
|
|
B |
9 |
一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别 4 种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求: |
简单 |
二分类问题 |
多分类问题 |
层次聚类问题 |
k-中心点聚类问题 |
回归问题 |
结构分析问题 |
B |
10 |
以下说法中错误的是 |
简单 |
SVM 对噪声(如来自其他分部的噪声样本)具备鲁棒性 |
在 adaboost 算法中,所有被分错样本的权重更新比例不相同 |
boosting 和 bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重 |
给定 n 个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着 n 的增加而减少的 |
|
|
C |
11 |
位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的 |
简单 |
后验概率 |
先验概率 |
类概率密度 |
类概率密度与先验概率的和 |
|
|
A |
12 |
下列哪些不特别适合用来对高维数据进行降维 |
简单 |
LASSO |
主成分分析法 |
聚类分析 |
小波分析法 |
线性判别法 |
拉普拉斯特征映射 |
C |
13 |
对数几率回归(logistics regression)和一般回归分析有什么区别? |
简单 |
对数几率回归是设计用来预测事件可能性的 |
对数几率回归可以用来度量模型拟合程度 |
对数几率回归可以用来估计回归系数 |
以上所有 |
|
|
D |
14 |
在一个 n 维的空间中, 最好的检测 outlier(离群点)的方法是 |
简单 |
作正态分布概率图 |
作盒形图 |
马氏距离 |
作散点图 |
|
|
C |
15 |
一般,k-NN 最近邻方法在( )的情况下效果较好 |
简单 |
样本较多但典型性不好 |
样本较少但典型性好 |
样本呈团状分布 |
样本呈链状分布 |
|
|
B |
16 |
我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 |
简单 |
增加树的深度 |
增加学习率 (learning rate) |
减少树的深度 |
减少树的数量 |
|
|
C |
17 |
符号集 a 、 b 、 c 、 d ,它们相互独立,相应概率为 1/2 、 1/4 、 1/8/ 、 1/16 ,其中包含信息量最小的符号是 |
简单 |
a |
b |
c |
d |
|
|
A |
18 |
在数据清理中,下面哪个不是处理缺失值的方法? |
简单 |
估算 |
整例删除 |
变量删除 |
成对删除 |
|
|
D |
19 |
"过拟合是有监督学习的挑战,而不是无监督学习"以上说法是否正确 |
简单 |
正确 |
错误 |
|
|
|
|
B |
20 |
逻辑回归与多元回归分析有哪些不同? |
简单 |
逻辑回归预测某事件发生的概率 |
逻辑回归有较高的拟合效果 |
逻辑回归回归系数的评估 |
以上全选 |
|
|
D |
21 |
支持向量是那些最接近决策平面的数据点 |
简单 |
对 |
错 |
|
|
|
|
A |
22 |
SVM 的效率依赖于 |
简单 |
核函数的选择 |
核参数 |
软间隔参数 |
以上所有 |
|
|
D |
23 |
训练 SVM 的最小时间复杂度为 O(n2),那么一下哪种数据集不适合用 SVM? |
简单 |
大数据集 |
小数据集 |
中等大小数据集 |
和数据集大小无关 |
|
|
A |
24 |
以下关于硬间隔 hard margin 描述正确的是 |
简单 |
SVM 允许分类存在微小误差 |
SVM 允许分类是有大量误差 |
|
|
|
|
A |
25 |
关于 SVM 泛化误差描述正确的是 |
简单 |
超平面与支持向量之间距离 |
SVM 对未知数据的预测能力 |
SVM 的误差阈值 |
|
|
|
B |
26 |
如果我使用数据集的全部特征并且能够达到 100%的准确率,但在测试集上仅能达到 70%左右,这说明 |
简单 |
欠拟合 |
模型很棒 |
过拟合 |
|
|
|
C |
27 |
SVM 中的代价参数表示 |
简单 |
交叉验证的次数 |
使用的核 |
误分类与模型复杂性之间的平衡 |
以上均不是 |
|
|
C |
28 |
SVM 中使用高斯核函数之前通常会进行特征归一化,以下关于特征归一化描述不正确的是? |
简单 |
经过特征正则化得到的新特征优于旧特征 |
特征归一化无法处理类别变量 |
SVM 中使用高斯核函数时,特征归一化总是有用的 |
|
|
|
C |
29 |
假设你训练 SVM 后,得到一个线性决策边界,你认为该模型欠拟合。假如你想修改 SVM 的参数,同样达到模型不会欠拟合的效果,应该怎么做? |
简单 |
增大参数 C |
减小参数 C |
改变 C 并不起作用 |
以上均不正确 |
|
|
A |
30 |
假设你训练 SVM 后,得到一个线性决策边界,你认为该模型欠拟合。在下次迭代训练模型时,应该考虑 |
简单 |
增加训练数据 |
减少训练数据 |
计算更多变量 |
减少特征 |
|
|
C |
31 |
下面哪个属于 SVM 应用 |
简单 |
文本和超文本分类 |
图像分类 |
新文章聚类 |
以上均是 |
|
|
D |
32 |
判断:没有必要有一个用于应用维数降低算法的目标变量 |
简单 |
真 |
假 |
|
|
|
|
A |
33 |
想象一下,机器学习中有 1000 个输入特征和 1 个目标特征,必须根据输入特征和目标特征之间的关系选择 100 个最重要的特征。你认为这是减少维数的例子吗? |
简单 |
是 |
不是 |
|
|
|
|
A |
34 |
假设现在只有两个类,这种情况下 SVM 需要训练几次? |
简单 |
1 |
2 |
3 |
4 |
|
|
A |
35 |
判断:PCA 可用于在较小维度上投影和可视化数据 |
简单 |
真 |
假 |
|
|
|
|
A |
36 |
以下哪种算法不能用于降低数据的维数? |
简单 |
t-SNE |
PCA |
LDA |
都不是 |
|
|
D |
37 |
判断:降维算法是减少构建模型所需计算时间的方法之一 |
简单 |
真 |
假 |
|
|
|
|
A |
38 |
以下哪种技术对于减少数据集的维度会更好? |
简单 |
删除缺少值太多的列 |
删除数据差异较大的列 |
删除不同数据趋势的列 |
都不是 |
|
|
A |
39 |
下图中主成分的最佳数量是多少? |
简单 |
7 |
30 |
40 |
不知道 |
|
|
B |
40 |
假设正在处理 10 类分类问题,并且想知道 LDA 最多可以产生几个判别向量。以下哪个是正确答案? |
简单 |
20 |
9 |
21 |
11 |
|
|
B |
41 |
Logistic Regression 主要用于回归吗? |
简单 |
是 |
否 |
|
|
|
|
B |
42 |
是否可以对三分问题应用逻辑回归算法? |
简单 |
是 |
否 |
|
|
|
|
A |
43 |
Logistic regression(逻辑回归)是一种监督式机器学习算法吗? |
简单 |
是 |
否 |
|
|
|
|
A |
44 |
在训练逻辑回归之前需要对特征进行标准化 |
简单 |
是 |
否 |
|
|
|
|
B |
45 |
分析逻辑回归表现的一个良好的方法是 AIC,它与线性回归中的 R 平方相似。有关 AIC,以下哪项是正确的? |
简单 |
具有最小 AIC 值的模型更好 |
具有最大 AIC 值的模型更好 |
视情况而定 |
以上都不是 |
|
|
A |
46 |
在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用? |
简单 |
AUC-ROC |
准确度 |
Logloss |
均方误差 |
|
|
D |
47 |
使用以下哪种算法进行变量选择? |
简单 |
LASSO |
Ridge |
两者 |
都不是 |
|
|
A |
48 |
以下哪些选项为真? |
简单 |
线性回归误差值必须正态分布,但是在 Logistic 回归的情况下,情况并非如此 |
逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此 |
线性回归和逻辑回归误差值都必须正态分布 |
线性回归和逻辑回归误差值都不能正态分布 |
|
|
A |
49 |
所谓几率,是指发生概率和不发生概率的比值。所以,抛掷一枚正常硬币,正面朝上的几率(odds)为多少? |
简单 |
0.5 |
1 |
都不是 |
|
|
|
B |
50 |
如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有 |
简单 |
已知类别样本质量 |
分类准则 |
量纲 |
|
|
|
B |
51 |
假设,下图是逻辑回归的代价函数,现在,图中有多少个局部最小值? |
简单 |
1 |
2 |
3 |
4 |
|
|
D |
52 |
在统计模式分类问题中,当先验概率未知时,可以使用 |
简单 |
最小损失准则 |
最小最大损失准则 |
最小误判概率准则 |
|
|
|
B |
53 |
影响基本 K-均值算法的主要因素有 |
简单 |
Boosting |
Bagging |
Stacking |
Mapping |
|
|
B |
54 |
以下不属于影响聚类算法结果的主要因素有 |
简单 |
已知类别的样本质量 |
分类准则 |
特征选取 |
模式相似性测度 |
|
|
A |
55 |
对于任意值“x”,考虑到() Logistic(x):是任意值“x”的逻辑(Logistic)函数 Logit(x):是任意值“x”的 logit 函数 Logit_inv(x):是任意值“x”的逆逻辑函数 以下哪一项是正确的? |
简单 |
Logistic(x)= Logit(x) |
Logistic(x)= Logit_inv(x) |
Logit_inv(x)= Logit(x) |
都不是 |
|
|
B |
56 |
下面哪个选项中哪一项属于确定性算法? |
简单 |
PCA |
K-Means |
以上都不是 |
|
|
|
A |
57 |
选择 Logistic 回归中的 One-Vs-All 方法中的哪个选项是真实的 |
简单 |
我们需要在 n 类分类问题中适合 n 个模型 |
我们需要适合 n-1 个模型来分类为 n 个类 |
我们需要只适合 1 个模型来分类为 n 个类 |
这些都没有 |
|
|
A |
58 |
下面哪个/些超参数的增加可能会造成随机森林数据过拟合?() 1 树的数量 2 树的深度 3 学习速率 |
简单 |
只有 1 |
只有 2 |
只有 3 |
都正确 |
|
|
B |
59 |
下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的? () 1 在 GD 和 SGD 中,每一次迭代中都是更新一组参数以最小化损失函数。 2 在 SGD 中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。 3 在 GD 中,每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。 |
简单 |
只有 1 |
只有 2 |
只有 3 |
都正确 |
|
|
A |
60 |
下面哪个/些对「类型 1(Type-1)」和「类型 2(Type-2)」错误的描述是正确的?() 类型 1 通常称之为假正类,类型 2 通常称之为假负类。 类型 2 通常称之为假正类,类型 1 通常称之为假负类。 类型 1 错误通常在其是正确的情况下拒绝假设而出现。 |
简单 |
只有 1 |
只有 2 |
只有 3 |
1 和 3 |
|
|
D |
61 |
对数损失度量函数可以取负值 |
简单 |
对 |
错 |
|
|
|
|
B |
62 |
假定你在神经网络中的隐藏层中使用激活函数假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出「-0.0001」。X 可能是以下哪一个激活函数? |
简单 |
ReLU |
tanh |
SIGMOID |
以上都是 |
|
|
B |
63 |
假定你正在处理类属特征,并且没有查看分类变量在测试集中的分布。现在你想将 one hot encoding(OHE)应用到类属特征中。 那么在训练集中将 OHE 应用到分类变量可能要面临的困难是什么? |
简单 |
分类变量所有的类别没有全部出现在测试集中 |
类别的频率分布在训练集和测试集是不同的 |
训练集和测试集通常会有一样的分布 |
A 和 B 都正确 |
|
|
D |
64 |
在线性回归问题中,我们用“R 方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的? |
简单 |
如果 R 方上升,则该变量是显著的 |
如果 R 方下降,则该变量不显著 |
单单 R 方不能反映变量重要性,不能就此得出正确结论 |
都不正确 |
|
|
C |
65 |
假设线性回归模型完美拟合训练数据(即训练误差为零),则下列哪项是正确的? |
简单 |
测试误差一定为零 |
测试误差一定不为零 |
以上都不对 |
|
|
|
C |
66 |
导出线性回归的参数时,我们做出下列哪种假定?() 1.因变量 y 和自变量 x 的真实关系是线性的 2.模型误差是统计独立的 3.误差通常服从一个平均值为零,标准差恒定的分布 4.自变量 x 是非随机的,无错的 |
简单 |
1,2 和 3 |
1,3 和 4 |
1 和 3 |
以上都对 |
|
|
D |
67 |
下列哪一项说明了 X,Y 之间的较强关系 |
简单 |
相关系数为 0.9 |
Beta 系数为 0 的空假设的 p-value 是 0.0001 |
Beta 系数为 0 的空假设的 t 统计量是 30 |
都不对 |
|
|
A |
68 |
下列关于异方差性哪项是正确的? |
简单 |
线性回归有变化的误差项 |
线性回归有恒定的误差项 |
线性回归有零误差项 |
以上都不对 |
|
|
A |
69 |
我们可以通过一种叫“正规方程”的分析方法来计算线性回归的相关系数,下列关于“正规方程”哪一项是正确的?( ) 1.我们不必选择学习比率 2.当特征值数量很大时会很慢 3.不需要迭代 |
简单 |
1 和 2 |
1 和 3 |
2 和 3 |
1,2 和 3 |
|
|
D |
70 |
下列哪项可以评价回归模型?( ) 1.R 方 2.调整 R 方 3.F 统计量 4.RMSE/MSE/MAE |
简单 |
2 和 4 |
1 和 2 |
2,3 和 4 |
以上所有 |
|
|
D |
71 |
关于 Ridge 和 Lasso 回归在特征值选择上的方法,一下哪项正确? |
简单 |
Ridge 回归使用特征值的子集选择 |
Lasso 回归使用特征值的子集选择 |
二者都使用特征值的子集选择 |
以上都不正确 |
|
|
B |
72 |
相关变量的相关系数可以为零,对吗? |
简单 |
是 |
否 |
|
|
|
|
A |
73 |
若两个变量相关,它们之间一定有线性关系吗? |
简单 |
是 |
否 |
|
|
|
|
B |
74 |
X 轴是自变量,Y 轴是因变量 下列对 A,B 各自残差和的陈述哪项正确? |
简单 |
A 比 B 高 |
A 比 B 低 |
两者相同 |
以上都不对 |
|
|
C |
75 |
为了评价一个简单线性回归模型(单自变量),需要多少个参数? |
简单 |
1 |
2 |
不确定 |
|
|
|
B |
76 |
关于回归和相关,下列哪项是正确的?( ) 提示:y 是因变量,x 是自变量 |
简单 |
在两者中,x、y 关系都是对称的 |
在两者中,x、y 关系都是不对称的 |
x、y 在相关情况下不对称,在回归中对称 |
x、y 在相关情况下对称,在回归中不对称 |
|
|
D |
77 |
假设用一个复杂回归模型拟合一个数据集,使用带固定参数 lambda 的 Ridge 回归来减小它的复杂度, 下列哪项描述了偏差和方差与 lambda 的关系? |
简单 |
对于非常大的 lambda,偏差很小,方差很小 |
对于非常大的 lambda,偏差很小,方差很大 |
对于非常大的 lambda,偏差很大,方差很小 |
对于非常大的 lambda,偏差很大,方差很大 |
|
|
C |
78 |
|
|
|
|
|
|
|
|
|
79 |
可以根据平均值和中位数计算斜率吗? |
简单 |
可以 |
不可以 |
|
|
|
|
B |
80 |
下列哪一种回归方法的相关系数没有闭式解? |
简单 |
Ridge 回归 |
Lasso 回归 |
Ridge 回归 and Lasso 回归 |
两者都不是 |
|
|
B |
81 |
下列哪一个项对欠拟合和过拟合的权衡影响最大? |
简单 |
多项式次数 |
是否通过矩阵倒置或梯度下降来学习权重 |
使用常数项 |
|
|
|
A |
82 |
假设使用逻辑回归模型处理 n 元分类问题,可以用到 One-vs-rest 方法,则下列哪一项是正确的? |
简单 |
在 n 元分类问题中,需要拟合 n 个模型 |
为了分类为 n 类,需要拟合 n-1 个模型 |
为了分类为 n 类,只需要拟合 1 个模型 |
都不正确 |
|
|
A |
83 |
考虑线性回归和逻辑回归中的重量/相关系数,关于 cost 函数的偏导,下列哪一项是正确的? |
简单 |
都不一样 |
都一样 |
无法确定 |
以上都不对 |
|
|
B |
84 |
逻辑回归是输出结果落在[0,1]区间内,下列哪个函数用于转换概率,使其落入[0,1]? |
简单 |
Sigmoid |
Mode |
Square |
Probit |
|
|
A |
85 |
下列关于回归分析中的残差表述正确的是 |
简单 |
残差的平均值总为零 |
残差的平均值总小于零 |
残差的平均值总大于零 |
残差没有此类规律 |
|
|
C |
86 |
在线性回归问题中,我们用 R 方“R-squared”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的? |
简单 |
如果 R 方上升,则该变量是显著的 |
如果 R 方下降,则该变量不显著 |
单单 R 方不能反映变量重要性,不能就此得出正确结论 |
都不正确 |
|
|
C |
87 |
假设线性回归模型完美拟合训练数据(即训练误差为零),则下列哪项是正确的? |
简单 |
测试误差一定为零 |
测试误差一定不为零 |
以上都不对 |
|
|
|
C |
88 |
一个人年龄和健康之间的相关系数是-1.09,据此可以得出 |
简单 |
年龄是健康预测的好的参考量 |
年龄是健康预测的不好的参考量 |
都不对 |
|
|
|
C |
89 |
下列哪种方法被用于预测因变量?( ) 1.线性回归 2.逻辑回归 |
简单 |
1 和 2 |
1 |
2 |
都不是 |
|
|
B |
90 |
为了检验连续变量 x,y 之间的线性关系,下列哪种图最合适? |
简单 |
散点图 |
条形图 |
直方图 |
都不对 |
|
|
A |
91 |
在导出线性回归的参数时,我们做出下列哪种假定?( ) 1.因变量 y 和自变量 x 的真实关系是线性的 2.模型误差是统计独立的 3.误差通常服从一个平均值为零,标准差恒定的分布 4.自变量 x 是非随机的,无错的 |
简单 |
1,2 and 3 |
1,3 and 4 |
1 and 3 |
以上都对 |
|
|
D |
92 |
下列哪一项说明了 X,Y 之间的较强关系? |
简单 |
相关系数为 0.9 |
Beta 系数为 0 的空假设的 p-value 是 0.0001 |
Beta 系数为 0 的空假设的 t 统计量是 30 |
都不对 |
|
|
A |
93 |
下列哪项可以评价回归模型?( ) 1.R 方 R Squared 2.调整 R 方 3.F 统计量 4.RMSE/MSE/MAE |
简单 |
2 和 4 |
1 和 2 |
2,3 和 4 |
以上所有 |
|
|
D |
94 |
假设你在训练一个线性回归模型,以下哪项是正确的?( ) 1.数据越少越易过拟合 2.假设区间小则易过拟合 |
简单 |
都是错的 |
1 错 2 对 |
1 对 2 错 |
都是对的 |
|
|
C |
95 |
若两个变量相关,它们之间一定有线性关系吗? |
简单 |
是 |
否 |
|
|
|
|
B |
96 |
为了评价一个简单线性回归模型(单自变量),需要多少个参数? |
简单 |
1 |
2 |
不确定 |
|
|
|
B |
97 |
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? |
简单 |
频繁模式挖掘 |
分类和预测 |
数据预处理 |
数据流挖掘 |
|
|
C |
98 |
下面哪种不属于数据预处理的方法? |
简单 |
变量代换 |
离散化 |
聚集 |
估计遗漏值 |
|
|
D |
99 |
什么是 KDD? |
简单 |
数据挖掘与知识发现 |
领域知识发现 |
文档知识发现 |
动态知识发现 |
|
|
A |
100 |
建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务? |
简单 |
根据内容检索 |
建模描述 |
预测建模 |
寻找模式和规则 |
|
|
C |
101 |
以下哪种方法不属于特征选择的标准方法? |
简单 |
嵌入 |
过滤 |
包装 |
抽样 |
|
|
D |
102 |
下列属于无监督学习的是 |
简单 |
k-means |
SVM |
最大熵 |
CRF |
|
|
A |
103 |
下列不是 SVM 核函数的是: |
简单 |
多项式核函数 |
Logistic 核函数 |
径向基核函数 |
Sigmoid 核函数 |
|
|
B |
104 |
bootstrap 数据是什么意思?(提示:考“bootstrap”和“boosting”区别) |
简单 |
有放回地从总共 M 个特征中抽样 m 个特征 |
无放回地从总共 M 个特征中抽样 m 个特征 |
有放回地从总共 N 个样本中抽样 n 个样本 |
无放回地从总共 N 个样本中抽样 n 个样本 |
|
|
C |
105 |
解决隐马模型中预测问题的算法是? |
简单 |
前向算法 |
后向算法 |
Baum-Welch 算法 |
维特比算法 |
|
|
D |
106 |
训练完 SVM 模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类 |
简单 |
正确 |
错误 |
|
|
|
|
A |
107 |
. 以下哪些算法, 可以用神经网络去构造: ( ) 1.KNN 2.线性回归 3.对数几率回归 |
简单 |
1 和 2 |
2 和 3 |
1, 2 和 3 |
以上都不是 |
|
|
B |
108 |
请选择下面可以应用隐马尔科夫(HMM)模型的选项 |
简单 |
基因序列数据集 |
电影浏览数据集 |
股票市场数据集 |
所有以上 |
|
|
D |
109 |
对于 PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 |
简单 |
正确的 |
错误的 |
|
|
|
|
B |
110 |
数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是 |
简单 |
单个模型之间有高相关性 |
单个模型之间有低相关性 |
在集成学习中使用“平均权重”而不是“投票”会比较好 |
单个模型都是用的一个算法 |
|
|
B |
111 |
以下哪个图是 KNN 算法的训练边界 ? |
简单 |
B |
A |
D |
C |
|
|
B |
112 |
对于线性回归,我们应该有以下哪些假设?() 1.找到利群点很重要, 因为线性回归对利群点很敏感 2.线性回归要求所有变量必须符合正态分布 3.线性回归假设数据没有多重线性相关性 |
简单 |
1 和 2 |
2 和 3 |
1,2 和 3 |
以上都不是 |
|
|
D |
113 |
我们注意变量间的相关性。在相关矩阵中搜索相关系数时, 如果我们发现 3 对变量的相关系数是(Var1 和 Var2, Var2 和 Var3, Var3 和 Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论?( ) 1.Var1 和 Var2 是非常相关的 2.因为 Var 和 Var2 是非常相关的, 我们可以去除其中一个 3.Var3 和 Var1 的 1.23 相关系数是不可能的 |
简单 |
1 and 3 |
1 and 2 |
1,2 and 3 |
1 |
|
|
C |
114 |
如果在一个高度非线性并且复杂的一些变量中“一个树模型可比一般的回归模型效果更好”是 |
简单 |
对的 |
错的 |
|
|
|
|
A |
115 |
下面对集成学习模型中的弱学习者描述错误的是? |
简单 |
他们经常不会过拟合 |
他们通常带有高偏差,所以其并不能解决复杂学习问题 |
他们通常会过拟合 |
|
|
|
C |
116 |
最出名的降维算法是 PAC 和 t-SNE。将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的? |
简单 |
X_projected_PCA 在最近邻空间能得到解释 |
X_projected_tSNE 在最近邻空间能得到解释 |
两个都在最近邻空间能得到解释 |
两个都不能在最近邻空间得到解释 |
|
|
B |
117 |
在 k-均值算法中,以下哪个选项可用于获得全局最小? |
简单 |
尝试为不同的质心(centroid)初始化运行算法 |
调整迭代的次数 |
找到集群的最佳数量 |
以上所有 |
|
|
D |
118 |
你正在使用带有 L1 正则化的 logistic 回归做二分类,其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时,下面哪个选项是正确的? |
简单 |
第一个 w2 成了 0,接着 w1 也成了 0 |
第一个 w1 成了 0,接着 w2 也成了 0 |
w1 和 w2 同时成了 0 |
即使在 C 成为大值之后,w1 和 w2 都不能成 0 |
|
|
B |
119 |
即使在 C 成为大值之后,w1 和 w2 都不能成 0 |
简单 |
PCA |
K-Means |
以上都不是 |
|
|
|
A |
120 |
下面哪个/些超参数的增加可能会造成随机森林数据过拟合? |
简单 |
树的数量 |
树的深度 |
学习速率 |
|
|
|
B |
121 |
下列哪个不属于常用的文本分类的特征选择算法? |
简单 |
卡方检验值 |
互信息 |
信息增益 |
主成分分析 |
|
|
D |
122 |
机器学习中做特征选择时,可能用到的方法有? |
简单 |
卡方 |
信息增益 |
平均互信息 |
期望交叉熵 |
以上都有 |
|
E |
123 |
一般,K-NN 最近邻方法在( )的情况下效果较好 |
简单 |
样本较多但典型性不好 |
样本呈团状分布 |
样本较少但典型性好 |
样本呈链状分布 |
|
|
A |
124 |
以下描述错误的是 |
简单 |
SVM 是这样一个分类器,它寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器 |
在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差 |
在决策树中,随着树中结点输变得太大,即使模型的训练误差还在继续降低,但是检验误差开始增大,这是出现了模型拟合不足的原因 |
聚类分析可以看作是一种非监督的分类 |
|
|
C |
125 |
关于正态分布,下列说法错误的是 |
简单 |
正态分布具有集中性和对称性 |
正态分布的均值和方差能够决定正态分布的位置和形态 |
正态分布的偏度为 0,峰度为 1 |
标准正态分布的均值为 0,方差为 1 |
|
|
C |
126 |
在以下不同的场景中,使用的分析方法不正确的有 |
简单 |
根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级 |
根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式 |
用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫 |
根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女 |
|
|
B |
127 |
下列表述中,在 k-fold 交叉验证中关于选择 K 说法正确的是 |
简单 |
较大的 K 并不总是好的,选择较大的 K 可能需要较长的时间来评估你的结果 |
相对于期望误差来说,选择较大的 K 会导致低偏差(因为训练 folds 会变得与整个数据集相似) |
在交叉验证中通过最小化方差法来选择 K 值 |
以上都正确 |
|
|
D |
128 |
在决策树中,用作分裂节点的 information gain 说法不正确的是 |
简单 |
较小不纯度的节点需要更多的信息来区分总体 |
信息增益可以使用熵得到 |
信息增益更加倾向于选择有较多取值的属性 |
|
|
|
A |
129 |
以下哪一种方法最适合在 n(n>1)维空间中做异常点检测 |
简单 |
正态分布图 |
盒图 |
马氏距离 |
散点图 |
|
|
C |
130 |
logistic 回归与多元回归分析有哪些不同? |
简单 |
logistic 回归预测某事件发生的概率 |
logistic 回归有较高的拟合效果 |
logistic 回归回归系数的评估 |
以上全选 |
|
|
D |
131 |
bootstrap 数据的含义是 |
简单 |
有放回的从整体 M 中抽样 m 个特征 |
无放回的从整体 M 中抽样 m 个特征 |
有放回的从整体 N 中抽样 n 个样本 |
无放回的从整体 N 中抽样 n 个样本 |
|
|
C |
132 |
决策树可以用来执行聚类吗? |
简单 |
能 |
不能 |
|
|
|
|
A |
133 |
下面那个决策边界是神经网络生成的? |
中等 |
A |
D |
C |
B |
E |
|
E |
134 |
关于 Logit 回归和 SVM 不正确的是 |
中等 |
Logit 回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit 仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率 |
Logit 回归的输出就是样本属于正类别的几率,可以计算出概率 |
SVM 的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化 |
SVM 可以通过正则化系数控制模型的复杂度,避免过拟合 |
|
|
A |
135 |
Fisher 线性判别函数的求解过程是将 M 维特征矢量投影在( )中进行求解。 A、M-1 维空间 |
中等 |
M-1 维空间 |
一维空间 |
三维空间 |
二维空间 |
|
|
B |
136 |
在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 |
中等 |
增加训练集数量 |
减少神经网络隐藏层节点数 |
删除稀疏的特征 |
SVM 算法中使用高斯核/RBF 核代替 |
|
|
D |
137 |
如果线性回归模型中的随机误差存在异方差性,那么参数的 OLS 估计量是 |
中等 |
无偏的,有效的 |
无偏的,非有效的 |
有偏的,有效的 |
有偏的,非有效的 |
|
|
B |
138 |
下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势 |
中等 |
特征灵活 |
速度快 |
可容纳较多上下文信息 |
全局最优 |
|
|
B |
139 |
已知一组数据的协方差矩阵 P,下面关于主分量说法错误的是 |
中等 |
主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小 |
在经主分量分解后,协方差矩阵成为对角矩阵 |
主分量分析就是 K-L 变换 |
主分量是通过求协方差矩阵的特征值得到 |
|
|
C |
140 |
以下哪些方法不可以直接来对文本分类? |
中等 |
Kmeans |
决策树 |
支持向量机 |
KNN |
|
|
A |
141 |
以下( )不属于线性分类器最佳准则? |
中等 |
感知准则函数 |
贝叶斯分类 |
支持向量机 |
Fisher 准则 |
|
|
B |
142 |
在统计模式分类问题中,当先验概率未知时,可以使用 |
中等 |
最小损失准则 |
最小最大损失准则 |
最小误判概率准则 |
|
|
|
B |
143 |
有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性 SVM 分类器的分类面方程是 |
中等 |
2x+y=4 |
x+2y=5 |
x+2y=3 |
2x-y=0 |
|
|
C |
144 |
在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,不会产生什么效果 |
中等 |
以做特征选择,并在一定程度上防止过拟合 |
能解决维度灾难问题 |
能加快计算速度 |
可以获得更准确的结果 |
|
|
D |
145 |
在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题? |
中等 |
增加训练集量 |
减少神经网络隐藏层节点数 |
删除稀疏的特征 |
SVM 算法中使用高斯核/RBF 核代替线性核 |
|
|
D |
146 |
隐马尔可夫模型三个基本问题以及相应的算法说法错误的是 |
中等 |
评估—前向后向算法 |
解码—维特比算法 |
学习—Baum-Welch 算法 |
学习—前向后向算法 |
|
|
D |
147 |
影响聚类算法效果的主要原因有 |
简单 |
特征选取 |
模式相似性测度 |
分类准则 |
已知类别的样本质量 |
|
|
ABC |
148 |
在统计模式分类问题中,当先验概率未知时,可以使用 |
简单 |
最小损失准则 |
最小最大损失准则 |
最小误判概率准则 |
N-P 判决 |
|
|
BD |
149 |
下列哪些方法可以用来对高维数据进行降维 |
简单 |
LASSO |
主成分分析法 |
聚类分析 |
小波分析法 |
线性判别法 |
拉普拉斯特征映射 |
ABCDEF |
150 |
处理类别型特征时,事先不知道分类变量在测试集中的分布。要将 one-hot encoding(独热码)应用到类别型特征中。那么在训练集中将独热码应用到分类变量可能要面临的困难是什么? |
简单 |
分类变量所有的类别没有全部出现在测试集中 |
类别的频率分布在训练集和测试集是不同的 |
训练集和测试集通常会有一样的分布 |
|
|
|
AB |
151 |
如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有 |
简单 |
已知类别样本质量 |
分类准则 |
特征选取 |
量纲 |
|
|
BC |
152 |
影响基本 K-均值算法的主要因素有 |
简单 |
样本输入顺序 |
模式相似性测度 |
聚类准则 |
初始类中心的选取 |
|
|
ABD |
153 |
以下哪个属于线性分类器最佳准则? |
简单 |
感知准则函数 |
贝叶斯分类 |
支持向量机 |
Fisher 准则 |
|
|
ACD |
154 |
以下说法中正确的是 |
简单 |
SVM 对噪声(如来自其他分布的噪声样本)鲁棒 |
在 AdaBoost 算法中,所有被分错的样本的权重更新比例相同 |
Boosting 和 Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重 |
给定 n 个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着 n 的增加而减少 |
|
|
BD |
155 |
机器学习中 L1 正则化和 L2 正则化的区别是? |
简单 |
使用 L1 可以得到稀疏的权值 |
使用 L1 可以得到平滑的权值 |
使用 L2 可以得到稀疏的权值 |
使用 L2 可以得到平滑的权值 |
|
|
AD |
156 |
位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的 |
简单 |
后验概率 |
先验概率 |
类概率密度 |
类概率密度与先验概率的乘积 |
|
|
AD |
157 |
下列方法中,可以用于特征降维的方法包括 |
简单 |
主成分分析 PCA |
线性判别分析 LDA |
深度学习 SparseAutoEncoder |
矩阵奇异值分解 SVD |
最小二乘法 LeastSquares |
|
ABCD |
158 |
数据清理中,处理缺失值的方法是? |
简单 |
估算 |
整例删除 |
变量删除 |
成对删除 |
|
|
ABCD |
159 |
下面哪些是基于核的机器学习算法? |
中等 |
Expectation Maximization(EM)(最大期望算法) |
Radial Basis Function(RBF)(径向基核函数) |
Linear Discrimimate Analysis(LDA)(主成分分析法) |
Support Vector Machine(SVM)(支持向量机) |
|
|
BCD |
160 |
在统计模式识分类问题中,当先验概率未知时,可以使用 |
中等 |
最小损失准则 |
N-P 判决 |
最小最大损失准则 |
最小误判概率准则 |
|
|
BC |
161 |
在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为 10w 条数据,负样本只有 1w 条数据,以下最合适的处理方法是 |
中等 |
将负样本重复 10 次,生成 10w 样本量,打乱顺序参与分类 |
直接进行分类,可以最大限度利用数据 |
从 10w 正样本中随机抽取 1w 参与分类 |
将负样本每个权重设置为 10,正样本权重为 1,参与训练过程 |
|
|
ACD |
162 |
关于线性回归的描述,以下正确的有: |
中等 |
基本假设包括随机干扰项是均值为 0,方差为 1 的标准正态分布 |
基本假设包括随机干扰下是均值为 0 的同方差正态分布 |
在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量 |
在违背基本假设时,模型不再可以估计 |
可以用 DW 检验残差是否存在序列相关性 |
多重共线性会使得参数估计值方差减小 |
ACEF |
163 |
基于二次准则函数的 H-K 算法较之于感知器算法的优点是 |
中等 |
计算量小 |
可以判别问题是否线性可分 |
其解完全适用于非线性可分的情况 |
其解的适应性更好 |
|
|
BD |
164 |
欧式距离具有( );马式距离具有() |
中等 |
平移不变性 |
旋转不变性 |
尺度缩放不变性 |
不受量纲影响的特性 |
|
|
AB ABCD |
165 |
假定目标变量的类别非常不平衡,即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的? |
中等 |
准确度并不适合于衡量不平衡类别问题 |
准确度适合于衡量不平衡类别问题 |
精确率和召回率适合于衡量不平衡类别问题 |
精确率和召回率不适合于衡量不平衡类别问题 |
|
|
AC |
166 |
鉴别了多元共线特征。那么下一步可能的操作是什么? |
中等 |
移除两个共线变量 |
不移除两个变量,而是移除一个 |
移除相关变量可能会导致信息损失,可以使用带罚项的回归模型(如 ridge 或 lasso regression) |
|
|
|
BC |
167 |
下面哪些对「类型 1(Type-1)」和「类型 2(Type-2)」错误的描述是正确的? |
中等 |
类型 1 通常称之为假正类,类型 2 通常称之为假负类 |
类型 2 通常称之为假正类,类型 1 通常称之为假负类 |
类型 1 错误通常在其是正确的情况下拒绝假设而出现 |
|
|
|
AC |
168 |
模式识别中,马式距离较之于欧式距离的优点是 |
中等 |
平移不变性 |
旋转不变性 |
尺度不变性 |
考虑了模式的分布 |
|
|
CD |
169 |
影响聚类算法结果的主要因素有 |
中等 |
已知类别的样本质量 |
分类准则 |
特征选取 |
模式相似性测度 |
|
|
BCD |
170 |
假定某同学使用 Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于 NB 的说法中正确的是 |
困难 |
这个被重复的特征在模型中的决定作用会被加强 |
模型效果相比无重复特征的情况下精确度会降低 |
如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样 |
当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题 |
NB 可以用来做最小二乘回归 |
以上说法都不正确 |
BD |
171 |
隐马尔可夫模型三个基本问题以及相应的算法说法正确的是 |
困难 |
评估—前向后向算法 |
解码—维特比算法 |
学习—Baum-Welch 算法 |
学习—前向后向算法 |
|
|
ABC |