西瓜书习题 - 2.模型评估与选择

1.泛化能力

1、下面哪一项可以作为模型好的标准?

  1. 错误率低
  2. 精度高
  3. 召回率高
  4. 以上指标都可以,但视具体任务和使用者需求而异

2、我们希望模型在未见样本上表现好,这一能力通常被称作模型的什么能力?

  1. 泛化能力
  2. 建模能力
  3. 学习能力
  4. 拟合能力

3、在评价模型性能时,我们更希望它____(泛化能力强/训练误差为0)

泛化能力强

2.过拟合和欠拟合

1、模型在“未来”样本上的误差被称作

  1. 泛化误差
  2. 经验误差
  3. 学习误差
  4. 训练误差

2、有的情况下,模型学习到了训练数据满足的特有性质,但这些性质不是一般规律,这种现象被称之为

  1. 欠拟合
  2. 过拟合
  3. 欠配
  4. 以上三个选项都不是

3、在训练模型时,只需要保证模型的训练误差最小即可。____(是/否)

3.三大问题

1、模型选择有哪些关键问题?

  1. 评估方法
  2. 性能度量
  3. 比较检验
  4. 以上三个选项都是关键问题

2、为了说明模型在统计意义上表现好,我们最需要考虑

  1. 评估方法
  2. 性能度量
  3. 比较检验
  4. 以上三个选项都不需要考虑

3、在没有“未来数据”的情况下,我们____(能/不能)通过训练集对泛化误差进行估计。

4.评估方法

1、下列什么方法可以用来获得从原始数据集中划分出“测试集”?

  1. 留出法
  2. 交叉验证法
  3. 自助法
  4. 以上三个选项都可以

2、下面哪一项不是留出法的注意事项?

  1. 需要保持训练集和测试集数据分布的一致性
  2. 只需要进行一次划分
  3. 测试集不能太大,不能太小
  4. 以上选项都是

3、训练集与测试集____(应该互斥/可以不互斥)

应该互斥

5.调参与验证集

1、调参以什么集合上的性能作为评价标准?

  1. 训练集
  2. 测试集
  3. 验证集
  4. 以上选项都可以

2、当我们使用一个多项式函数去逼近数据集时,下面哪一个说法是正确的?

  1. 多项式的次数是超参数
  2. 多项式的系数是超参数
  3. 多项式的次数必须通过数据去学习
  4. 以上说法都是正确的

3、超参数一般由____(人工/学习)确定

人工

6.性能度量

1、“好”模型取决于下列哪些因素?

  1. 算法
  2. 数据
  3. 任务需求
  4. 以上选项都是

2、收购西瓜的公司希望把瓜摊的好瓜都尽量收走,请问他的评价标准是?

  1. 错误率
  2. 精度
  3. 查准率
  4. 查全率

3、回归任务的性能度量之一均方误差 E ( f , D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f, D)=\frac{1}{m} \sum_{i=1}^m (f(x_i)-y_i)^2 E(f,D)=m1i=1m(f(xi)yi)2 添加系数后 c E ( f , D ) ( c > 0 ) cE(f,D) (c>0) cE(f,D)(c>0) 会影响判断那个模型是最好的。___(是/否)

7.比较检验

1、以下什么检验是基于列联表的?

  1. 交叉验证t检验
  2. McNemar检验
  3. 以上检验都是基于列联表的
  4. 以上检验都不是基于列联表的

2、下面关于交叉验证t检验错误的是?

  1. 适用于模型采用k折交叉验证的评估方法
  2. 基于成对t检验
  3. 无法判断统计显著性
  4. 需要用到模型评估时k折交叉验证的k个结果

3、两种算法在某种度量下取得评估结果后,可以直接比较以评价优劣。____(是/否)

8.章节测试

1、在训练集上的误差被称作

  1. 泛化误差
  2. 经验误差
  3. 测试误差
  4. 以上三个选项都不对

2、当学习任务对数据分布的轻微变化比较鲁棒且数据量较少时,适合使用什么样的数据集划分方式?

  1. 留出法
  2. 交叉验证法
  3. 自助法
  4. 以上三个选项都可以

3、我们通常将数据集划分为训练集,验证集和测试集进行模型的训练,参数的验证需要在____上进行,参数确定后____重新训练模型。

  1. 训练集 需要
  2. 训练集 不需要
  3. 验证集 需要
  4. 验证集 不需要

4、当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该考虑什么评价指标?

  1. 精度
  2. 查全率
  3. 查准率
  4. F1度量

5、两种算法在某种度量下取得评估结果后不能直接比较以评判优劣的原因中,正确的是

  1. 测试性能不等于泛化性能
  2. 测试性能随着测试集的变化而变化
  3. 很多机器学习算法本身有一定的随机性
  4. 以上均正确

6、训练模型时,选择经验误差最小的模型会存在什么风险。____(过拟合/欠拟合)

过拟合

7、对于从数据 ( 0 , 1 ) , ( 1 , 0 ) , ( 1 , 2 ) , ( 2 , 1 ) (0,1),(1,0),(1,2),(2,1) (0,1),(1,0),(1,2),(2,1) 通过最小二乘拟合的不带偏置项的线性模型 y = x y=x y=x ,其训练误差(均方误差)为____ (保留三位小数)

1.000

8、使用留出法对数据集进行划分时,为了保持数据分布的一致性,可以考虑什么采样。____(分层采样/随机采样/有放回采样)

分层采样

9、当我们使用留出法对数据集进行划分后,在训练集上通过两个不同的算法训练出2个模型,并通过测试集上的性能评估得到表现最好的模型,这一模型可以直接推荐给用户。 ____(是/否)

10、考虑一个三分类数据集,其由30个西瓜,30个苹果,30个香蕉构成。先有一个学习策略为预测新样本为训练集中样本数目最多类别的分类器(存在多个类别样本数量一样多时则随机选择一个类别预测),请问通过什么评估方式会导致其平均准确率为0。____(留出法/交叉验证,每一折样本数大于1/留一法)

留一法

11、当我们使用留一法进行评估时会出现什么问题。____(训练模型与使用整个数据集训练的模型差异大/经验误差与泛化误差偏差大)

经验误差与泛化误差偏差大

12、考虑如下分类结果混淆矩阵,其F1度量为____(保留3位小数)

西瓜书习题 - 2.模型评估与选择_第1张图片

0.364

西瓜书习题 - 2.模型评估与选择_第2张图片

查准率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

查全率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

F1: F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F1=\frac{2\times P \times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TPTN2×TP

13、McNemar检验基于____(成对t检验/卡方检验)

卡方检验

14、假设我们已经建立好了一个二分类模型, 输出是0或1, 初始阈值设置为0.5, 超过0.5概率估计就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 一般来说,下列说法正确的是

  1. 查准率会上升或不变,查全率会下降或不变
  2. 查准率会下降或不变,查全率会下降或不变
  3. 查准率会上升或不变,查全率会上升或不变
  4. 查准率会下降或不变,查全率会上升或不变

15、对于留出法,下列说法正确的是

  1. 测试集小的时候,评估结果的方差较大
  2. 训练集小的时候,评估结果的偏差较大
  3. 留出法需要对数据集进行多次切分并将结果取平均值
  4. 以上说法均正确

你可能感兴趣的:(西瓜书习题,机器学习,人工智能)