基本术语
假设空间: 模型属于由输入空间到输出空间的映射的集合
归纳偏好:学习过程中对某种类型假设的偏好称作归纳偏好。它可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”
一、经验误差和过拟合
如何解决?
过拟合:
欠拟合:
划分训练集和测试集的方法:留出法、交叉验证法、自助法
留出法
交叉验证法
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值为10。
自助法:
以自助采样法为基础,对数据集D有放回采样m次得到训练集D’ ,D-D’用作测试集。
三、 性能度量
对于分类任务,错误率和精度是最常用的两种性能度量:
线性回归:最小二乘法
二分类任务:对数几率回归、线性判别分析
多分类任务:一对一、一对其余、多对多
拆分阶段
N个类别两两配对(N(N-1))/2个二类任务)
各个二类任务学习分类器(N(N-1)/2个二类分类器)
测试阶段
新样本提交给所有分类器预测(N(N-1)/2个分类结果)
投票产生最终分类结果(被预测最多的类别为最终类别)
什么是决策树?
分类决策树模型是一种描述对实例进行分类的是树形结构。决策树由结点和有向边组成。结点由内部结点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。
决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点和包含的样本尽可能属于同一类别,即节点的纯度越来越高。
经典的属性划分方法:
”信息熵“是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为 p k ( K = 1 , 2 , . . . , ∣ y ∣ ) , \ pk(K=1,2,...,|y|), pk(K=1,2,...,∣y∣),则 D \ D D的信息熵定义为 E n t ( D ) = − ∑ m = 0 ∣ y ∣ p k log 2 p k Ent(D)=-\sum_{m=0}^{\lvert y \rvert } pk\log_{2}pk Ent(D)=−m=0∑∣y∣pklog2pk 其中 E n t ( D ) \ Ent(D) Ent(D)的值越小,则D的纯度越高。
计算信息熵时约定:若 p = 0 \ p=0 p=0,则 p log 2 p = 0 \ p\log_{2}p = 0 plog2p=0;
E n t ( D ) \ Ent(D) Ent(D)的最小值为0,最大值为 log 2 ∣ y ∣ \ \log_{2}\lvert y\rvert log2∣y∣。
存在问题
信息增益对可取值数目较多的属性有所偏好。
为什么剪枝
剪枝的策略
判断决策树泛化能力是否提升的方法
定义:通过提前停止树的构建而对树剪枝,一旦停止,节点就是树叶,该树叶持有子集元组最频繁的类。
停止决策树生长最简单的方法有:
预剪枝的优缺点:
定义:先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶节点。
后剪枝的优缺点:
Boosting: 个体学习器间存在强依赖关系,必须串行生成的序列化方法;
串行:下一个分类器只在前一个分类器预测不够准的实例上进行训练或检测。
目标:主要生成偏差比其组成部分更低的强模型。
Bagging: 个体学习器间不存在强依赖关系,可同时生成的并行化方法。
并行:所有的弱分类器都给出各自的预测结果,通过组合把这些预测结果转化为最终结果。
目标:获得一个方差比其组成部分更小的继承模型。
思想:训练不同的弱分类器组成强分类器
应用:两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题;
通过改变数据分布来迭代训练分类器。
步骤: