周志华《机器学习》读书记录

周志华《机器学习》读书记录(8) 第八章 集成学习 课后习题

这章主要讲了融合算法 包括1.Boosting(Adaboost)将一个弱学习器提升为强学习器2.Bagging(并行式集成学习)让我没想到的是随机森林算法也是并行式集成学习的一种,看来我的理解还是很差。
课后习题:

1.假设硬币正面朝上的概率为p,反面朝上的概率为1-p。令H(n)代表抛n次硬币所得正面朝上的次数,则最多k次正面朝上的概率试推导出(8.3)。

2.对于0/1损失函数来说,指数损失函数并非仅有的一致替代函数。考虑式(8.5),试证明:任意随机函数 l(H(x)f(x)) l ( − H ( x ) f ( x ) ) ,若对于 H(X) H ( X ) 在区间 [,δ](δ>0) [ − ∞ , δ ] ( δ > 0 ) 上单调递减,则 l l 是0/1损失函数的一致替代函数。

3.自己编程实现一个AdaBoost,以不剪枝决策树为基学习器,在西瓜数据集3.0α上训练一个AdaBoost集成,并与图8.4比较。

4.GradientBoosting是一种常用的Boosting算法,是分析其与AdaBoost的异同。

GradientBoosting与AdaBoost相同的地方在于要生成多个分类器以及每个分类器都有一个权值,最后将所有分类器加权累加起来
不同在于:
AdaBoost通过每个分类器的分类结果改变每个样本的权值用于新的分类器和生成权值,但不改变每个样本。
GradientBoosting将每个分类器对样本的预测值与真实值的差值传入下一个分类器来生成新的分类器和权值(这个差值就是下降方向),而每个样本的权值不变。

5.试编程实现Bagging,以决策树桩为学习器,在西瓜数据集3.0α上训练一个Bagging集成,并与8.6进行比较。

6.试述为什么Bagging难以提升朴素贝叶斯分类器的性能。

Bagging主要是降低分类器的方差,而朴素贝叶斯分类器没有方差可以减小。对全训练样本生成的朴素贝叶斯分类器是最优的分类器,不能用随机抽样来提高泛化性能。

7.试述随即森林为什么比决策树Bagging集成的训练速度快

随机森林不仅会随机样本,还会在所有样本属性中随机几种出来计算。这样每次生成分类器时都是对部分属性计算最优,速度会比Bagging计算全属性要快。

8.MultiBoosting算法与Iterative Bagging的优缺点。

MultiBoosting由于集合了Bagging,Wagging,AdaBoost,可以有效的降低误差和方差,特别是误差。但是训练成本和预测成本都会显著增加。
Iterative Bagging相比Bagging会降低误差,但是方差上升。由于Bagging本身就是一种降低方差的算法,所以Iterative Bagging相当于Bagging与单分类器的折中。

9.试设计一种可视化多样性度量,并与k-误差图比较。

10.试设计一种能提升k近邻分类器性能的集成学习算法。

你可能感兴趣的:(机器学习周志华,机器学习)