Class | Content |
---|---|
layout | post |
title | 第一章 统计学习方法概论 |
categories | Course |
description: | 李航 《统计学习方法》的学习, 主要介绍基本概念,详细叙述了监督学习,提出统计学习的三要素:模型\策略\算法,另外还介绍了模型选择:包括正则化\交叉验证与学习的泛化能力,此外还介绍了生成模型和判别模型. |
keywords | 监督学习 模型三要素 模型选择 生成模型 判别模型 |
a. ~概念:
又叫统计机器学习,人们提到的机器学习往往指统计机器学习, 它是利用计算机对数据构建的概论统计模型,并运行模型对新的数据进行预测和分析
b. ~特点:
(1)平台[计算机及网络] ;
(2)对象:数据;
(3)目的:分析和预测;
(4)中心:统计学习方法;
(5)多领域交叉[概率论\统计学\信息论\最优化\计算理论\计算机科学等]
c. ~前提假设:
同一类数据具有一定的统计规律性[因为它具有统计规律,所以可以用概率统计的方法进行处理,eg 用随机变量描述数据的特征,概论分布描述数据的统计规律]
d. ~方法:
统计学习方法可以分为: 监督学习\非监督学习\半监督学习\强化学习等
e. 统计学习方法三要素:
方法 = 模型+策略+算法
模型: 这里不再赘述
策略: 按照什么准则学习或者选择最优模型,引用了损失函数(loss function)与风险函数(risk function),详细介绍见博文《详解机器学习中的损失函数和风险函数》.
算法:学习模型的具体计算方法,根据学习策略从假设空间中选择最优模型,最后需要考虑用什么方法计算最优模型,转化为最优化问题,可能出现有显式的解析解,也可能需要用数值计算的方法进行求解.
注: 假设训练集和测试集数据是独立同分布产生的
f. ~步骤:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习选择最优模型;
- 利用学习的最优模型对新数据进行分析和预测.
g. ~重要性 : 统计学习是处理海量数据最强有力的工具,是计算机智能化的有效手段.
a. 监督学习概念:
是统计学习的方法之一, 它是学习一个模型,使得模型能对任意给定的输入,对其相应的输出做出一个好的预测. [最好的判断方式是看它是否有标签]
b. 输入空间\特征空间\输出空间:
输入与输出所有可能的取值的集合称为输入空间与输出空间,通常输出空间小于输入空间.特征空间表示所有特征存在的空间,而模型实际上是定义在特征空间上的.
c.训练集和测试集的表示:
X X 表示输入随机变量, Y Y 表示输出随机变量, x x 和 y y 是定义在输入和输出空间上随机变量的取值.
训练集: Train={(x1,y1),(x2,y2),...,(xn,yn)} T r a i n = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) }
测试集: Test={(x∗1,y∗1),(x∗2,y∗2),...,(x∗n,y∗n)} T e s t = { ( x 1 ∗ , y 1 ∗ ) , ( x 2 ∗ , y 2 ∗ ) , . . . , ( x n ∗ , y n ∗ ) }
输入和输出对又称为样本或样本点
d. 不同预测任务的名称:
输入变量和输出变量均为连续的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题被称为标注问题.
注: 对于标注问题,目前还没有做过类似的项目,初步理解如下:
标注问题:
e. 监督学习的基本假设: 监督学习假设输入和输出的随机变量 X X 和 Y Y 遵循联合概率分布 P(X,Y) P ( X , Y ) ,训练集和测试集被看做上依联合概率分布 P(X,Y) P ( X , Y ) 独立同分布产生的.
f. 假设空间:
是指包含所有可能的模型的集合,以监督学习为例,假设空间包含所有可能的条件概率分布或决策函数, 它是有参数向量决定的函数族或者条件概率分布族,表示为
{f|Y=fθ(X),θ∈Rn} { f | Y = f θ ( X ) , θ ∈ R n } 或者 {P|P(Y|X)),θ∈Rn} { P | P ( Y | X ) ) , θ ∈ R n }
而模型是输入到输出的映射,,学习的目的是找到最好的模型,所有假设空间就确定了学习范围.而监督学习的模型可以是概率模型( P(Y|X) P ( Y | X ) )也可以是非概率模型 Y=f(X) Y = f ( X ) ,所以对于一特定的实例,输出预测为 P(y|x) P ( y | x ) 和 y=f(x) y = f ( x ) .
g. 监督学习形式化如下:
阐释: 监督学习假设训练集和测试集都是依联合概率分布 P(X,Y) P ( X , Y ) 独立同分布产生的.从训练集出发,学习系统先训练数据, 应用某个评价准则从假设空间里选择最佳的模型,使得模型对训练数据和新数据在给定的评价准则下有最优的预测,学习到的模型表示为 P(Y|X) P ( Y | X ) 或者 Y=f(X) Y = f ( X ) ,所以在预测过程,给定输入 x(n+1) x ( n + 1 ) ,由模型得到 y∗(n+1) y ( n + 1 ) ∗
a. 训练误差\测试误差\泛化误差的概念:
统计学习不仅要对训练数据有较好的拟合效果,还要对未知数据有较好的泛化能力. 对于给定的损失函数,基于损失函数的模型的训练误差[针对训练集]和模型的测试误差[针对测试集]是学习方法的评估标准. 测试误差反映模型对未知数据的预测能力,测试误差越小,预测能力,即泛化能力越强.
注: 1. 学习所采用的损失函数可以与预测采用的损失函数不同,但是一般是一致的.
- 训练误差:
举例说明
当损失函数为0-1损失时,测试误差为
b. 过拟合和模型选择
- 模型选择: 由于假设空间含有不同复杂度的模型,模型选择的目的是选择尽可能最优的模型去逼近真模型.
- 过拟合: 为了追求训练集的预测能力,提高模型的复杂度[主要是模型包含过多参数],从而导致模型对训练集预测效果很好,对未知数据泛化能力很差.
举例说明:多项式曲线拟合
给定一组训练集,表示为 T={(x1,y1),(x2,y2),...,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } , 对训练集我用下面的多项式进行拟合:
拟合结果如(图1-2),图中给出了M=0,1,3,9的拟合效果,可以看出,当M=0时,多项式曲线是常数,拟合效果很差,M=1时,多项式曲线为直线,拟合效果依然很差,相反M=9,多项式曲线拟合了所以点.对于M=0和3的情况下,表现为欠拟合(即拟合不够), 而M=9为过拟合现象.
那么再看一下此时的训练误差和测试误差与模型复杂度关系如(图1-3),随着模型复杂度增加,训练误差和测试误差都先降低,但是随着复杂度变得更高的时候,训练误差变得更小甚至趋近于0,而测试误差陡然上升,此时出现了过拟合现象,模型对训练集过拟合,而对未知数据泛化能力下降.
另外,我们在看一下参数与模型复杂度的关系, 随着模型复杂度增加 ||w|| | | w | | 呈现增加趋势,这也是可以通过正则化控制模型过拟合的原因.
问题来了,那么如何防止过拟合呢?
- 1. 增加训练集
对于多项式曲线拟合的例子,通过增加训练集数量可以有效减缓过拟合, 可以看出N=15时,模型拟合效果很好,而增加数据,模型难以将每一个数据的都拟合到,所以增加训练集数量可以有效防止过拟合.
- 2. 正则化
正则化是指在经验风险的基础上加上正则化项,正则化项可以取不同的形式,可以是参数向量的 L2 L 2 范数,也可以是 L1 L 1 范数,但是一般来说,正则化项是模型复杂度单调递增函数
详细的交叉验证方法以及如何交叉验证见博客《简述交叉验证》
监督学习模型可以分为两种:生成模型(generative model)和判别模型(discriminative model).
- 生成模型:由于模型给定了输入 X X 和输出 Y Y 的关系,所以学习到联合概率分布P(X,Y),然后求出条件概率分布 P(Y|X) P ( Y | X ) 作为预测,eg 朴素贝叶斯\隐马尔可夫模型.
生成模型表示为:
本章主要介绍了机器学习的基本概念,详细讲解了监督学习,训练误差\预测误差\泛化误差,生成模型和判别模型等,文章框架依据李航《统计学习方法》第一章而来,准备地说,是自己对其的归纳和简述,同时举例参考bishop的经典《模式识别和机器学习》书籍.
如有疑问,联系:[email protected]