统计学习方法

第一章 统计学习及监督学习概论

如果一个系统能够通过执行某个过程改进它的性能,这就是学习-----Simon

  • 统计学习
    统计学习的对象
    数据,具有一定的统计规律性,即具有某种共同性质,例如文章,互联网网页。
    统计学习的目的
    预测和分析,兼顾学习效率
    统计学习的方法
    监督学习、无监督学习、强化学习
    从给定的、有限的、用于学习的训练集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据以及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。概括为三要素:模型,策略,算法。
    统计学习的研究
    包括统计学习方法,统计学习理论以及统计学习应用
    统计学习的重要性
统计学习的分类

(1)监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。输入变量与输出变量都为连续变量的预测问题称为回归问题。输出变量为有限个离散变量的预测问题成为分类问题;输入变量与输出变量均为变量序列的预测问题成为标注问题。
(2)假设输入和输出的随机变量遵循某一概率分布函数。
(3)模型属于由输入空间到输出空间的映射,往往是条件概率分布或者是决策函数。映射的集合是假设空间.
2.
(1)无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别,转化或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
3.
(1)强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习。本质是学习最优的序贯决策。
4.
(1)半监督学习和主动学习。半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
其他分类,概率模型和非概率模型,线性模型和非线性模型,参数化模型和非参数化模,在线学习和批量学习,贝叶斯学习(贝叶斯估计和极大似然估计),核方法

统计学习方法三要素

方法= 模型 + 策略 +算法
过拟合和模型选择
正则化和交叉验证:使得测试误差变小。
交叉验证:

  • 简单交叉验证,随机划分成测试集和训练集
  • S折交叉验证,首先随机将已给数据氛围S个互不相交,大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次测评种平均测试误差最小的模型。
  • 留一交叉验证。S交叉验证的特殊情形 s=n。

泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。

  • 泛化误差
  • 泛化误差上界:它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

生成模型和判别模型

监督学习的应用

分类问题,二分类评价指标召回率,精确率(F1)
标注问题,是分类模型的推广
回归问题

你可能感兴趣的:(笔记)