一个月刷完机器学习笔试题300题(19)

第19天

1、下图显示了三个逻辑回归模型的AUC-ROC曲线。不同的颜色表示不同超参数值的曲线。以下哪个AUC-ROC会给出最佳结果?

A
黄色
B
粉红色
C
黑色
D
都相同
正确答案是:A
最佳分类是曲线下区域面积最大者,而黄线在曲线下面积最大
2、假设你在测试逻辑回归分类器,设函数H为

下图中的哪一个代表上述分类器给出的决策边界?

A
B
C
正确答案是: B
选项B正确。虽然我们的式子由选项A和选项B所示的y = g(-6 + x2)表示,但是选项B才是正确的答案,因为当将x2 = 6的值放在等式中时,要使y = g(0)就意味着y = 0.5将在线上,如果你将x2的值增加到大于6,你会得到负值,所以输出将是区域y = 0。
3、所谓几率,是指发生概率和不发生概率的比值。所以,抛掷一枚正常硬币,正面朝上的几率(odds)为多少?
A
0.5
B
1
C
都不是
正确答案是: B
几率(odds)是事件发生不发生概率的比率,正面朝上概率为1/2和反面朝上的概率都为1/2,所以几率为1。
4、Logit函数(给定为l(x))是几率函数的对数。域x = [0,1]中logit函数的范围是多少?
A
( - ∞,∞)
B
(0,1)
C
(0,∞)
D
( - ∞,0)
正确答案是:A
为了与目标相适应,几率函数具有将值从0到1的概率函数变换成值在0和∞之间的等效函数的优点。当我们采用几率函数的自然对数时,我们便能范围是-∞到∞的值。
这里给出Logit函数的图像(来自维基百科):

5、如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?
(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。)
A
降低学习率,减少迭代次数
B
降低学习率,增加迭代次数
C
提高学习率,增加迭代次数
D
增加学习率,减少迭代次数
正确答案是:D
如果在训练时减少迭代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。

6、以下哪些选项为真?
A
线性回归误差值必须正态分布,但是在Logistic回归的情况下,情况并非如此
B
逻辑回归误差值必须正态分布,但是在线性回归的情况下,情况并非如此
C
线性回归和逻辑回归误差值都必须正态分布
D
线性回归和逻辑回归误差值都不能正态分布
正确答案是:A

7、以下哪个图像显示y = 1的代价函数?
以下是两类分类问题的逻辑回归(Y轴损失函数和x轴对数概率)的损失函数。

注:Y是目标类
A
A
B
B
C
两者
D
这些都没有
正确答案是:A
A正确,因为损失函数随着对数概率的增加而减小

8、对于任意值“x”,考虑到
Logistic(x):是任意值“x”的逻辑(Logistic)函数
Logit(x):是任意值“x”的logit函数
Logit_inv(x):是任意值“x”的逆逻辑函数

以下哪一项是正确的?
A
Logistic(x)= Logit(x)
B
Logistic(x)= Logit_inv(x)
C
Logit_inv(x)= Logit(x)
D
都不是
正确答案是: B

9、假设,下图是逻辑回归的代价函数

现在,图中有多少个局部最小值?
A
1
B
2
C
3
D
4
正确答案是:D
图中总共有四个凹的地方,故有四个局部最小值。
10、使用 high(infinite) regularisation时偏差会如何变化?

有散点图“a”和“b”两类(蓝色为正,红色为负)。在散点图“a”中,使用了逻辑回归(黑线是决策边界)对所有数据点进行了正确分类。
A
偏差很大
B
偏差很小
C
不确定
D
都不是

正确答案是:A
模型变得过于简单,所以偏差会很大。
Bias:误差,对象是单个模型,期望输出与真实标记的差别(可以解释为描述了模型对本训练集的拟合程度)
Variance:方差,对象是多个模型(这里更好的解释是换同样规模的训练集,模型的拟合程度怎么样;也可以说方差是刻画数据扰动对模型的影响,描述的是训练结果的分散程度)
从同一个数据集中,用科学的采样方法得到几个不同的子训练集,用这些训练集训练得到的模型往往并不相同。

以上图为例:

  1. 左上的模型偏差最大,右下的模型偏差最小;
  2. 左上的模型方差最小,右下的模型方差最大(根据上面红字的解释这里就很好理解了)
    一般来说,偏差、方差和模型的复杂度之间的关系是这样的:

    实际中,我们需要找到偏差和方差都较小的点。

XGBOOST中,我们选择尽可能多的树,尽可能深的层,来减少模型的偏差;
通过cross-validation,通过在验证集上校验,通过正则化,来减少模型的方差
从而获得较低的泛化误差。

你可能感兴趣的:(算法学习)