西瓜书习题 - 3.线性模型

1.线性回归

1、以下哪个不是线性模型的优势?

  1. 简单
  2. 复杂
  3. 基本
  4. 可理解性好

2、示例的属性可以属于下列哪个类别?

  1. 无序的离散属性
  2. 连续属性
  3. 有序的离散属性
  4. 以上都对

3、一卖伞商家想利用天气来预测销售额,已知他只考虑温度、湿度、降雨量三种天气特征。若商家使用线性回归模型预测,则模型的输入是____ (填写阿拉伯数字) 维度的。

3

2.最小二乘解

1、最小二乘参数估计得到的线性回归模型满足什么性质?

  1. 均方误差为0
  2. 均方误差最大
  3. 均方误差最小
  4. 均方误差为1

2、最小二乘法的求解步骤是什么?

(1) 均方误差对w与b求偏导;(2) 令偏导为0;(3) 求解线性方程组。

  1. (1)(2)(3)
  2. (1)(3)(2)
  3. (2)(1)(3)
  4. (3)(1)(2)

3、基于均方误差最小化来进行模型求解的方法称为____(5个字)。

最小二乘法

3.多元线性回归

1、为了书写的简化,多元线性回归会使用下列哪种记号?

  1. **将向量 w w w b b b 合并为一个向量,在 x x x 的最后增加一列 1 ​ ∗ ∗ 1​** 1​
  2. 将向量 w w w 1 1 1 合并为一个向量,在 x x x 的最后增加一列 b b b
  3. 将向量 w w w b b b 合并为一个向量,在 x x x 的最后增加一列
  4. 将向量 w w w b b b 合并为一个向量,在 x x x 的最后增加一列

2、当下列哪个条件满足时,多元线性回归的最小二乘解唯一?

  1. X T X X^TX XTX不满秩
  2. X T X X^TX XTX满秩
  3. X X T XX^T XXT满秩
  4. X X T XX^T XXT不满秩

3、当 X T X X^TX XTX 不满秩时,多元线性回归需要引入____(regularization)。

正则化

4.广义线性模型

1、 l n y = w T x + b lny=w^Tx+b lny=wTx+b 被称为什么模型?

  1. 线性指数回归
  2. 线性对数回归
  3. 指数线性回归
  4. 对数线性回归

2、对数线性回归是令广义线性模型中的联系函数为什么函数的特例?

  1. 指数函数
  2. 对数函数
  3. 二次函数
  4. 绝对值函数

3、广义线性模型一般形式为 y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b) ,其中 g − 1 g^{-1} g1 被称为____(link function).

联系函数

5.对率回归

1、单位阶跃函数的缺点是什么?

  1. 不连续且不可微
  2. 单调增
  3. 非负
  4. 最大值为1

2、对数几率函数作为单位阶跃函数的替代函数的优点是什么?

  1. 具有中心对称性
  2. 严格大于0
  3. 单调且任意阶可导
  4. 不需要写成分段形式

3、 y 1 − y \frac{y}{1-y} 1yy反映了 x x x 作为正例的相对可能性,这个量在统计学中被称为____。

几率

6.对率回归求解

1、对数几率回归为什么不能通过令偏导为0求解?

  1. 均方损失函数太复杂
  2. 均方损失非凸
  3. 均方损失没有偏导为0的点
  4. 均方损失没有极值点

2、下列关于梯度下降法描述错误的是?

  1. 可以用于求解对数几率回归
  2. 是一种迭代求解的方法
  3. 可以比较好的并行化
  4. 可以高效地求解所有凸优化问题

3、极大似然法最大化____函数。

似然

7.类别不平衡

1、类别不平衡问题中何时需要做特殊处理?

  1. 大类比小类重要
  2. 小类和大类一样重要
  3. 小类比大类重要
  4. 任何情况

2、以下哪种方法不是常见的类别不平衡学习方法?

  1. 最小二乘法
  2. 过采样
  3. 欠采样
  4. 阈值移动

3、处理类别不平衡问题时,通过丢掉一部分大类样本使得训练集平衡的方法被称为____ (3个字)。

欠采样

8.章节测试

1、下列关于对数几率回归的描述中错误的是?

  1. 无需事先假设数据分布
  2. 使用对数函数作为联系函数
  3. 可得到类别的近似概率预测
  4. 可直接应用现有数值优化算法求取最优解

2、孙悟空想请你帮他预测下一次妖精会在多久后出现,你会使用下列哪种方法?

  1. 使用历史上妖精出现的时间以及八戒每日食量数据,并使用对率回归模型
  2. 使用历史上妖精出现的时间以及师父念紧箍咒的时间数据,并使用指数线性回归模型
  3. 使用历史上妖精出现的时间以及师徒四人的前进速度数据,并使用多元线性回归模型
  4. 使用历史上妖精出现的时间以及沙和尚每日体重数据,并使用对数线性回归模型

3、处理类别不平衡问题时,复制小类样本不是一种好的过采样方法,下列哪个不是其原因?

  1. 复制样本效率低下
  2. 容易过拟合
  3. 受噪声影响大
  4. 有过拟合噪声的风险

4、Jerry想通过西瓜的重量、西瓜的颜色、西瓜根蒂的长短来判断一个西瓜是否是好瓜,Jerry记录了一些购买西瓜的记录如下:(5500g,乌黑,长,否), (6000g,青绿,很长,是), (5800g,翠绿,短,是)。如果Jerry想收集更多西瓜数据并利用线性模型判断西瓜好坏,下列哪个选项是上述三个记录的合理表示?

  1. (5500,1,2), (6000,2,4), (5800,3,1)
  2. (5.5,1,0,0,3), (6,0,0,1,5), (5.8,0,1,0,1)
  3. (5500,1,0,0,5), (6000,0,1,0,3), (5800,0,0,1,1)
  4. (5.5,1,0,0,3), (6,0,1,0,2), (5.8,0,0,1,1)

5、小明想利用心率数据、运动与用餐时间间隔这两项数据来预测是否会发生低血糖,他利用平时锻炼数据收集了100个未发生低血糖的数据与3个发生低血糖的数据,3个发生低血糖的数据为:(180,比较久), (170,久), (165,非常久)。小明想请你帮他过采样一些低血糖数据,你认为下列哪个数据是合理的过采样数据?

  1. (175,比较久)
  2. (200,久)
  3. (150,非常久)
  4. (175,不久)

6、下列哪个模型不是广义线性模型?

  1. y = l n ( w x + b 1 − w x − b ) y=ln(\frac{wx+b}{1-wx-b}) y=ln(1wxbwx+b)
  2. y 3 = w x + b y^3=wx+b y3=wx+b
  3. y = w x + b \sqrt y = wx+b y =wx+b
  4. y 2 = w x + b \mathbf{y^2=wx+b} y2=wx+b

7、下列哪个选项不是多元线性回归使用正则化的原因?

  1. 计算机数值精度有限
  2. 样例维度大于样例数
  3. 样例的采样过程存在偏差
  4. 存在大量线性相关的样例

8、在求解对率回归时,下列哪个选项不是极大似然法的优势?

  1. 优化目标是凸函数
  2. 具有闭式解
  3. 可以使用梯度下降法求解
  4. 优化目标连续可微

9、给定数据集 D = { ( − 1 , 0 ) , ( 0 , 0 ) , ( 1 , 1 ) } D=\{(-1,0), (0,0), (1,1)\} D={(1,0),(0,0),(1,1)} ,最小二乘法学得的线性模型的斜率为____ (保留3位小数)。

0.500

10、给定数据集 D = { ( x i , y i ) } i = 1 m D=\{(x_i,y_i)\}_{i=1}^m D={(xi,yi)}i=1m, 最小化数据集到线性模型的欧式距离的平方和学得的线性模型满足 ( w ∗ , b ∗ ) = a r g   m i n   ( w , b ) 1 w 2 + 1 ∑ i = 1 m ( w x i − y i + b ) 2 (w^*, b^*) = \underset{(w,b)}{arg~min~} \frac{1}{w^2+1} \sum_{i=1}^m(wx_i-y_i+b)^2 (w,b)=(w,b)arg min w2+11i=1m(wxiyi+b)2 .对于数据集 D = { ( − 1 , 0 ) , ( 0 , 0 ) , ( 1 , 1 ) } D=\{(-1,0), (0,0), (1,1)\} D={(1,0),(0,0),(1,1)}, 这一方法学得的线性模型的斜率为____ (保留3位小数)。

0.535

11、比较上述两题求得的斜率值,最小二乘法求得的斜率____(大于/等于/小于) 最小化数据集到线性模型欧式距离的平方和求得的斜率。这一结论对一般问题也成立,可尝试证明之。

小于

12、OvR是一种常用的多分类方法,该方法每次将一个类的样例作为正例、所有其他类的样例作为反例。对于类别均衡的10分类问题,若使用OvR以及阈值移动法来训练,则阈值应设为____ (保留3位小数)。

0.100

13、对率回归可以得到样例是正类的概率的____(精确值/近似估计)。

近似估计

14、对率回归____(需要/不需要) 事先假设数据分布。

不需要

15、多元线性回归不满秩的情况下____(是/否)可以通过加入归纳偏好来选取较好的解。

你可能感兴趣的:(西瓜书习题,机器学习,回归)