机器学习概述(1)

文章目录

  • 1.统计机器学习
    • 1.1.统计学习三要素
      • 1.1.1.模型的假设空间(模型)
      • 1.1.2.模型选择的准则(策略)
        • 1.1.2.1.损失函数和风险函数
        • 1.1.2.2.期望风险
        • 1.1.2.3.经验风险
      • 1.1.3.学习模型的算法(算法)
    • 1.2.模型评估与模型选择
    • 1.3.正则化与交叉验证
    • 1.4.泛化能力
    • 1.5.监督学习
      • 1.5.1.概念
      • 1.5.2.问题形式化
      • 1.5.3.分类问题
      • 1.5.4.标注问题
      • 1.5.5.回归问题

1.统计机器学习

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析,统计学习也称为统计机器学习(statistical machine learning)。

统计学习包括:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforced learning)等。

监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)

根据标签的形式可以把监督学习问题分为:

  • 分类问题
  • 标注问题
  • 回归问题

统计学习方法的三要素:模型的假设空间,模型选择的准则,模型学习的算法

1.1.统计学习三要素

监督学习:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的要学习的模型属于某个函数的集合(假设空间,hypothesis space),应用某个评价准则(evaluation criterion),从函数集合中选取一个最优的模型,使它对已知训练数据及未知训练数据(test data)在给定的评价准则中有最优的预测;最优模型的选取由算法实现。

1.1.1.模型的假设空间(模型)

在监督学习中,模型是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合

假设空间F通常是由一个参数向量决定的函数族:
函数表示: F = { f ∣ Y = f ( X ) } F=\{f|Y=f(X)\} F={fY=f(X)}
条件概率表示: F = { P ∣ P ( Y ∣ X ) } F=\{P|P(Y|X)\} F={PP(YX)}
其中,X和Y是定义在输入空间和输出空间上的变量,这时F通常是由一个参数向量决定的函数族。
函数族: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\{f|Y=f_\theta(X),\theta \in R^n\} F={fY=fθ(X),θRn}
条件概率分布族: F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\{P|P_\theta(Y|X),\theta \in R^n\} F={PPθ(YX),θRn}
参数向量θ取值于n维欧式空间 R n R^n Rn,称为参数空间(parameter space)
对于模型是条件概率的不再解释。

1.1.2.模型选择的准则(策略)

有了模型的假设空间,接下来要考虑的是按照什么样的准则学习或选择最优的模型。
损失函数是度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

监督学习的两个基本策略:经验风险最小化和结构风险最小化。

  • 期望风险:理论的平均损失。
  • 经验风险:模型关于训练样本集的平均损失。
  • 结构风险:结构风险在经验风险基础上加上表示模型复杂度的正则化项或罚项,防止过拟合。
  • 关系:
    根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。

1.1.2.1.损失函数和风险函数

监督学习中需要用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度,常用的损失函数有以下几种:

  • 0-1损失函数(0-1 loss function)

L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))= \begin{cases} 1, & Y \neq f(X)\\ 0, & Y=f(X) \end{cases} L(Y,f(X))={1,0,Y=f(X)Y=f(X)

  • 平方损失函数(quadratic loss function)
    L ( Y , f ( X ) = ( Y − f ( X ) ) 2 L(Y,f(X)=(Y-f(X))^2 L(Y,f(X)=(Yf(X))2

  • 绝对损失函数(absolute loss function)
    L ( Y , f ( X ) = ∣ Y − f ( X ) ∣ L(Y,f(X)=|Y-f(X)| L(Y,f(X)=Yf(X)

  • 对数(似然)损失函数(logarithmic loss function)或对数似然损失函数(log likelihood loss function)
    L ( Y , P ( Y ∣ X ) = − l o g ( P ( Y ∣ X ) L(Y,P(Y|X)=-log(P(Y|X) L(Y,P(YX)=log(P(YX)

1.1.2.2.期望风险

损失函数值越小,模型就越好。由于模型的输入,输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是

理论上f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。

这是一个理论值,而不是实验中某个具体数。

1.1.2.3.经验风险

给定一个训练数据集,模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss):
在这里插入图片描述

监督学习的目标就是选择期望风险最小的模型,由于联合分布P(X,Y)是未知的,无法得到真实的期望风险
经验风险是模型关于训练样本集的平均损失,根据大数定理,当样本容量N趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法是用经验风险估计期望风险,但是由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常不理想,需要对经验风险进行一定的矫正。

2)经验风险最小化与结构风险最小化
经验风险最小化(empirical risk minimization,ERM)
经验风险最小化的策略认为,经验风险最小的模型是最优的模型。
在这里插入图片描述

  • 样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛引用。比如当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等于极大似然估计(maximum likelihood estimation)。
  • 样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合”的现象。
    结构经验最小化(structural risk minimization,SRM)是为了防止过拟合而提出来的策略,结构风险最小化等价于正则化(regularization)。结构风险在经验风险基础上加上表示模型复杂度的正则化项或罚项。在假设空间,损失函数以及训练数据确定的情况下,结构风险的定义是
    在这里插入图片描述

其中J(f)是模型的复杂度,是定义在假设空间F上的泛函。模型f越复杂,复杂度J(f)就越大,反之越小。λ≥0是系数,用以衡量经验风险和模型复杂度。

结构风险小需要经验风险和模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

比如贝叶斯估计,模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计(MAP,maximum posterior probability)

结构风险最小化的策略认为结构风险最小的模型是最优的模型,所求的最优模型的目标函数是:

在这里插入图片描述

1.1.3.学习模型的算法(算法)

算法是指学习模型的具体计算方法,以求解最优模型。如果最优化问题有显式的解析解,这个最优化问题比较简单,但是通常解析解不存在,这就需要用数值计算的方法求解。如何保证找到全局最优解,并使求解的过程高效,是需要考虑的一个重要问题。

1.2.模型评估与模型选择

当损失函数给定时,基于特定损失函数的模型的训练误差(training error)和测试误差(test error)是评估模型的标准。

当假设空间含有不同复杂度的模型(不同参数)时,需要进行模型选择(model selection)。
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比“真”模型更高,会导致过拟合(over-fitting),过拟合是指学习时选择的模型所含参数过多,以致于该模型对此预测数据预测得好,但对未知数据预测很差。

例子:
假设数据如下图,有10个数据点,用0-9次多项式函数对数据进行拟合。
机器学习概述(1)_第1张图片
从图中可以看出,随着多项式的次数增加,训练误差会减少,但测试误差却减小后增加。
设M次多项式为:
在这里插入图片描述
步骤:
1)确定模型的复杂度,即多项式的次数
2)在给定模型的复杂度下,根据经验风险最小化的策略(损失函数),求解参数,即多项式的系数。
机器学习概述(1)_第2张图片
机器学习概述(1)_第3张图片

j表示系数次数
i表示样本个数

训练误差和测试误差与模型复杂度的关系:
机器学习概述(1)_第4张图片

1.3.正则化与交叉验证

模型选择的方法:正则化和交叉验证。
正则化一般具有如下形式:
在这里插入图片描述
第一项是经验风险,第二项是正则化项,系数调整两者之间的关系。
正则化项可以有多种:
λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2} ||w||^2 2λw2:参数向量W的L2范数
λ ∣ ∣ w ∣ ∣ \lambda ||w|| λw:参数向量W的L1范数
正则化的作用是选择经验风险与模型复杂度同时最小的模型。

交叉验证:如果数据样本充足,可以把数据分为训练集(training set)、验证集(validation set)和测试集(test set)。如果数据样本不充足,可以使用交叉验证。
1)简单交叉验证
简单交又验证方法是:首先随机地将已舗数据分为两部分,一部分作为训练
集,另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集),然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型.

2)S折交叉验证
应用最多的是S折交叉验证(S-fold cross validation),方法如下,首先随机地将已给数据切分为S个互不相交的大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型,将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型.

3)留一交叉验证
S折交叉验证的特殊情形是S = N,称为留一交叉验证(leave-one-out cross validation),往往在数据缺乏的情况下使用.这里,N是给定数据集的容量.

1.4.泛化能力

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,现实中采用测试误差来评价学习方法的泛化能力,但是测试数据集是有限的,结果并不可靠。

采用泛化误差上界(generalization error bound)度量泛化能力的优劣。
泛化误差上界是样本容量的函数,当样本容量增加时,泛化上界趋于0; 泛化误差上界是假设空间容量的函数,假设空间越大(参数越多),模型越难学,泛化误差越大。

训练误差小的模型,其泛化误差也会小。

1.5.监督学习

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的,入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同)。计算机的基本操作就是给定一个输入产生一个输出,所以监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富、应用最广泛的部分。

1.5.1.概念

(1)输入空间、特征空间和输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。
输入空间与输出空间:无限元素的集合,或者整个欧式空间
输入空间与输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小于输入空间。

每个具体的输入就是一个实例(instance),通常有特征向量(feature vector)表示,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应一个特征,模型实际上都是定义在特征空间上的。

监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入与输出对(样本/样本点)组成。

输入输出变量可以是连续的,也可以是离散的,根据不同类型建立不同模型

  • 输出变量为连续变量时,预测问题为回归问题;
  • 输出变量为离散变量时,预测问题为分类问题;
  • 输入与输出均为变量序列时,预测问题为标注问题。

(2)联合概率分布
监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。假设P(X,Y)是独立同分布的。

(3)假设空间
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。

1.5.2.问题形式化

监督学习利用训练数据学习一个模型,再用模型对测试样本集进行预测
机器学习概述(1)_第5张图片
训练数据集:
在这里插入图片描述

1.5.3.分类问题

分类是监督学习的一个核心问题。在监督学习中,当输出变量取有限个离散值时,预测问题便成为分类问题,这时,输入变量X可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier),分类器对新的输入进行输出的预测(prediction),称为分类(classification).可能的输出称为类(class),分类的类别为多个时,称为多类分类问题,

分类在于根据其特性将数据“分门别类”,所以在许多领域都有广泛的应用。例如,在银行业务中,可以构建一个客户分类模型,对客户按照贷款风险的大小进行分类;在网络安全领域,可以利用日志数据的分类对非法入侵进行检测;在图像处理中,分类可以用来检测图像中是否有人脸出现;在手写识别中,分类可以用于识别手写的数字;在互联网搜索中,网页的分类可以帮助网页的抓取、索
引与排序。

许多统计学习方法可以用于分类,包括k近邻法,感知机、朴素贝叶斯法、决
策树、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络等。

1.5.4.标注问题

标注(tagging)也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测到。注意,可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级増长的.

评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率,其定义与分类模型相同。

标注常用的统计学习方法有,隐马尔可夫模型、条件随机场。
标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列.

举一个信息抽取的例子.从英文文章中抽取基本名词短语(base noun phrase)。为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的“开始”,“结束”或”其他“(分别以B, E, 0表示),标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记”开始”到标记“结束”的单词作为名词短语。例如,给出以下的观测序列,即英文句子,标注系统产生相应的标记序列,即给出句子中的基本名词短语.
输入:At Microsoft Research, we have an insatiable curiosity and the desire to
create new technology that will help define the confuting experience.
输出:At/O Microsoft/B Research/E, we/O have/O an/O insatiable /B curiosity /E
and/O the/O desire/BE to/0 create /O new/B technology /E that/O will/O help/O define/O the/O confuting /B experience/E.

1.5.5.回归问题

回归(regression)是监督学习的另一个重要问题.回归用于预测输入变量(自
变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的変化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

回归学习最常用的损失函败是平方损失函数,在此情况下,回归问题可以由
著名的最小二乘法(least squares)求解.
许多领域的任务都可以形式化为回归向原,比如,回归可以用于商务领域,作
为市场趋势预测、产品质量管理、客户满意度调査、投资风险分析的工具。作为
例子,简单介绍股价预测问题。假设知道某一公司在过去不同时间点(比如,每
天)的市场上的股票价格(比如,股票平均价格),以及在各个时间点之前可能
影响该公司股价的信息(比如,该公司前一周的营业额、利润)。目标是从过去
的数据学习一个模型,使它可以基于当前的信息预测该公司下一个时间点的股票
价格。可以将这个问题作为回归问题解决。具体地,将影响股价的信息视为自变
量(输入的特征),而将股价视为因变量(输出的值)。将过去的数据作为训练数据,就可以学习一个回归模型,并对未来的股价进行预测.可以看出这是一个困难的预测问题,因为影响股价的因素非常多,我们未必能判断到哪些信息(输入的特征)有用并能得到这些值息.

1.6.非监督学习
待补充。。。。。。。。。。。。。
1.7.半监督学习
待补充。。。。。。。。。。。。。

1.8.强化学习
待补充。。。。。。。。。。。。。

你可能感兴趣的:(机器学习,机器学习)