1、当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为 ____。(过拟合/欠拟合)
过拟合
2、对于两个样本点 ( 0 , 0 ) , ( 1 , 1 ) (0,0),(1,1) (0,0),(1,1),若我们将其投影到与拉普拉斯核函数 k ( x , y ) = e − ∣ ∣ x − y ∣ ∣ k(x,y)=e^{-||x-y||} k(x,y)=e−∣∣x−y∣∣关联的RKHS中时,则两个样本投影后的点距离为 ____(保留三位小数)
1.230
d i s t ( x 1 , x 2 ) = ∥ ϕ ( x 1 ) − ϕ ( x 2 ) ∥ H k 2 = k ( x 1 , x 1 ) − 2 k ( x 1 , x 2 ) + k ( x 2 , x 2 ) dist(x_1,x_2)=\|\phi(x_1)-\phi(x_2)\|_{\mathcal{H}_k}^2=\sqrt{k(x_1,x_1)-2k(x_1,x_2)+k(x_2,x_2)} dist(x1,x2)=∥ϕ(x1)−ϕ(x2)∥Hk2=k(x1,x1)−2k(x1,x2)+k(x2,x2)
3、考虑如下三分类的例子,使用投票法集成的结果的精度为 ____ (保留3位小数)。
0.200
4、如果为了同时得到多个聚类簇数的聚类结果(如下图所示),最适合使用 ____(原型聚类/密度聚类/层次聚类)
层次聚类
5、下列说法错误的是()
6、聚类算法是机器学习中一种典型的 ____(监督/无监督)学习算法。
无监督
7、在上题的例子中,每个基分类器的精度都为0.4,因而都是弱分类器,但集成后的精度下降了。这一现象表明在多分类任务中,弱学习器 ____ (能/不能) 保证集成精度不下降。
不能
8、以下关于模型评估与选择的说法,错误的是
9、当多隐层神经网络使用线性激活函数时,下列哪个选项是正确的?
10、以下关于聚类的说法,错误的是
11、Sigmoid函数在一点的函数值总是 ____(大于/等于/小于/无法确定) 该点的导数值。
大于
12、以下哪种方式通常不能帮助解决决策树过拟合()
13、考虑正类样本(-1,0),(0,1),(-1,1) 和负类样本(1,0),(0,-1),(1,-1),通过支持向量机的基本型得到的解为
14、下列说法错误的是
15、以下关于机器学习的说法错误的是
16、下列说法错误的是
17、决策树划分时,若其中一个属性为样本的编号(各样本编号不同),若基于该属性进行划分,则信息增益最 ____(大/小)
大
18、下列说法错误的是
19、下列有关支持向量机,说法正确的是
20、如果决策树过拟合训练集,减少决策树最大深度____(是/否)为一个好主意。
是
21、下列哪一种数据集切分方式会导致划分的训练集和测试集与初始数据集分布不同?
22、下列关于类别不平衡问题的描述中正确的是哪个?
23、考虑如图数据集,其中 x1与x2为特征,其取值集合分别为x1={−1,0,1},x2={B,M,S},y为类别标记,其取值集合为y={0,1}。
使用所给训练数据,学习一个朴素贝叶斯分类器,考虑样本x={0,B},请计算P(y=1)P(x|y=1)的值____(保留2位有效数字)。
0.03
24、支持向量机原始问题目标函数最优值是对偶问题得到的目标函数最优值的 ____(上界/下界)
上界
25、朴素贝叶斯分类器采用了()假设:即对已知类别,假设所有属性相互独立。
26、下列关于线性模型的描述中正确的是哪个?
27、下列说法错误的是
28、若任务中数据的属性是连续值,此类任务称为 ____(分类/回归/不确定)。
不确定
29、使用BP算法优化神经网络,若发现损失函数剧烈波动,可能是优化步长偏 ____ (大/小)。
大
30、下列说法错误的是()
31、设 n ∈ N + n \in N^+ n∈N+为一正自然数,考虑数据集 D n = { ( − i , − 1 ) , ( i , 1 ) } i = 1 n D_n=\{(-i, -1), (i, 1)\}_{i=1}^n Dn={(−i,−1),(i,1)}i=1n。记 w n w_n wn为最小二乘法在数据集 D n D_n Dn 上学得的线性模型的斜率,则的 l i m n → + ∞ n w n \underset{n \rightarrow +\infty}{lim} ~nw_n n→+∞lim nwn 值为 1.234(保留3位小数或填写"不存在")。
1.500
32、下列关于集成学习的说法中正确的是哪个?
33、下列关于BP算法的说法中正确的是哪个?
34、下列关于多元线性回归中使用正则项的说法中正确的是?
35、下列关于神经网络万有逼近性的说法中正确的是哪个?
36、当查准率和查全率均为1时,F1度量为 ____。(计算结果保留三位小数)
1.000
37、对于参数估计过程,统计学界的 ____(频率主义/贝叶斯主义)学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值。
频率主义
38、当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该分别考虑什么评价指标?
39、对率回归 ____ (是/否) 可以通过极大似然估计求解。
是
40、下列哪些函数可以作为核函数?