统计学习方法- 统计学习方法概论

1.统计学习


         统计学习是关于计算机数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习又称为统计机器学习。

        它的主要特点包括:

  • 统计学习是以计算机和网络为平台,是建立在计算机和网络之上的。
  • 统计学习以数据为研究对象,是数据驱动的学科。
  • 目的是对数据进行预测和分析。
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
  • 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个理论交叉的学科,并在发展中形成独立的理论体系和方法论。

       统计学习由监督学习、非监督学习、半监督学习和强化学习组成。统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称他们为统计学习的三要素,简称模型,策略和算法。

        实现统计学习的步骤如下:

  • 得到一个有限的训练数据集合
  • 得到包括所有可能模型的假设空间,即学习模型的集合
  • 确定模型选择的准则,即学习的策略
  • 实现求解最优模型的算法,即学习的算法
  • 通过学习方法选择最优模型
  • 利用学习的最优模型对新的数据进行预测和分析

统计学习的方法为主,特别是监督学习方法,主要包括分类、标注与回归问题的方法。这些方法在自然语言处理、文本数据挖掘与信息检索等领域有着极其广泛的应用。

2.监督学习


        监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个很好地预测。他的基本概念包括如下:

  • 输入空间、特征空间、输出空间

将输入与输出所有可能取值的集合分别称为输入空间和输出空间。每个具体的输入是一个实例,通常用特征向量表示。所有特征向量存在的空间称为特征空间。对预测任务的不同的名称:输入输出的变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题称为标注问题。

  • 联合概率分布

        假设输入与输出的随即变量X和Y具有联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。

  • 假设空间

        模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间以为着学习范围的确定。

        对于具体输入进行相应的输出预测时,写作P (y|x)y = f(x).

问题的形式分化:

统计学习方法- 统计学习方法概论_第1张图片

3.统计学三要素 


 统计学习的三要素可以简单地表示为:方法 = 模型+策略+算法

  • 模型

统计学习方法- 统计学习方法概论_第2张图片

  • 策略

统计学习的目标在于在假设空间中选取最优模型。

首先引入损失函数与风险函数的概念,损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

统计学习方法- 统计学习方法概论_第3张图片

经验风险或经验损失:

经验风险最小化与结构风险最小化:

  • 算法 

统计学习最后需要考虑用什么样的计算方法求解最优模型。

4.模型评估与选择


学习方法评估标准:训练误差、测试误差

过拟合与模型选择:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往比真模型更高,这种现象称为过拟合。常用的模型选择方法:正则化和交叉验证。

5.正则化和交叉验证


正则话一般具有如下形式:

  •  简单交叉验证:首先随机地将数据分为两部分,一部分作为训练集,另一部分作为测试集。然后训练集在不同的条件下(例如不同参数)训练模型,从而得到不同的模型。在测试集上评价测试误差,选出误差最小的模型。
  • S折交叉验证:应用最多。首先随机地将一给数据切分为S个互不相交的大小相同的子集,然后利用S-1个子集的数据训练模型,利用其余的子集测试模型;选出S次测评中平均测试误差最小的模型。
  • 留一交叉验证:S折交验证的特殊形式:S=N,往往在数据表缺乏的情况下使用。N是给定数据集的容量。

6.泛化能力


学习方法的泛化能力是指有该方法学习到的模型对未知数据的预测能力。模型对未知数据预测的误差即为泛化误差:

 事实上泛化误差就是所学习到的模型的期望风险。

泛化上界:学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的。

7.生成模型预判别模型


监督学习方法有分为生成方法和判别方法。所学到的模型分为生成模型和判别模型。

 判别方法:由数据直接学习判别函数或者条件概率分布作为预测模型。

8.分类问题


分类是监督学习的一个核心问题。包括学习和分类两个问题。

分类:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出预测,称为分类。可能的输出称为类,分类的类别为多个时,称为多类分类问题。

统计学习方法- 统计学习方法概论_第4张图片

9.标注问题


标注也是一个监督学习问题,可以认为标注是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。

统计学习方法- 统计学习方法概论_第5张图片

10.回归问题


回归问题是监督学习的另一个重要问题,回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。回归问题等价于函数拟合。

统计学习方法- 统计学习方法概论_第6张图片 

 

你可能感兴趣的:(人工智能相关书籍阅读笔记,概率论,机器学习)