统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科 。
统计学习也称为统计机器学习。
统计学习由监督学习、无监督学习和强化学习组成。(有时还包括半监督学习、主动学习)
监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
统计学习的模型可以分为概率模型和非概率模型或者确定性模型。
决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型是概率模型。
感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,以及神经网络是非概率模型。
逻辑斯蒂回归既可看作是概率模型,又可看作是非概率模型。
如果函数 y = f ( x ) y=f(x) y=f(x)或 z = g ( x ) z=g(x) z=g(x)是线性函数,则称模型是线性模型,否则称模型是非线性模型。
感知机、线性支持向量机、k近邻、k均值、潜在语义分析是线性模型。
核函数支持向量机、AdaBoost、神经网络是非线性模型。
参数化模型假设模型的维度固定,模型可以由有限维参数完全刻画;
非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。
可以分为在线学习与批量学习。
在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。
与之对应,批量学习一次接受所有数据、学习模型,之后进行预测。
利用随机梯度下降的感知机学习算法就是在线学习算法。
贝叶斯学习,又称为贝叶斯推理,是统计学、机器学习中重要的方法。
其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。
核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。
有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范围更加广泛。
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。
不同的学习方法会给出不同的模型。当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合。
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象。
模型选择的典型方法是正则化。
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
比如,正则化项可以是模型参数向量的范数。
如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分为训练集、验证集和测试集。
训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。
具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。
泛化误差上界通常具有以下性质:
它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
监督学习方法又可以分为生成方法和判别方法。
所学到的模型分别称为生成模型和判别模型。
主要在三个方面:
评价分类器性能的 指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
也就是损失函数是0-1损失时测试数据集上的准确率。
对于二分类问题常用的评价指标是精确率与召回率。
通常以关注的类为正类,其它类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
精确率定义为:
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率定义为:
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
标注也是一个监督学习问题。
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合成的标记序列的个数是依序列长度呈指数级增长的。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型正是表示从输入变量到输出变量之间映射的函数。
感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1值和-1二值。
感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。
感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。
假设输入空间(特征空间)是 X ⊆ R n X\subseteq R^n X⊆Rn,输出空间是 Y = Y= Y={+1,-1}。输入 x ∈ X x\in X x∈X表示实例的特征向量,对应于输入空间(特征空间)的点;输出 y ∈ Y y\in Y y∈Y表示实例的类别。由输入空间到输出空间的如下函数:
f ( x ) = s i g n ( ω ⋅ x + b ) f(x)=sign(\omega·x+b) f(x)=sign(ω⋅x+b)
称为感知机。其中, ω \omega ω和 b b b称为感知机模型参数。 ω ∈ R n \omega \in R^n ω∈Rn叫做权值或权值向量, b ∈ R b \in R b∈R叫做偏置, ω ⋅ x \omega ·x ω⋅x表示二者内积。
s i g n sign sign是符号函数,即
s i g n ( x ) = { + 1 x >= 0 − 1 x<0 sign(x)=\begin{cases} +1& \text{x >= 0}\\-1& \text{x<0} \end{cases} sign(x)={+1−1x >= 0x<0
感知机模型的假设空间是定义在特征空间的所有线性分类模型或线性分类器,
即函数集合{ f ∣ f ( x ) = ω ⋅ x + b f|f(x)=\omega ·x + b f∣f(x)=ω⋅x+b}
损失函数的一个自然选择是误分类点的总数。
损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的。
给定一个训练数据集,对新的输入实例,在训练数据中找到与该实例最接近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
特征空间中,对每个训练实例点 x i x_i xi,距离该点比其他点更近的所有组合点组成一个区域,叫做单元。每个训练实例点拥有一个单元,所有训练实例点的单元构成对特征空间的一个划分。最近邻法将实例 x i x_i xi的类 y i y_i yi作为其单元中所有点的类标记。
这样,每个单元的实例点的类别是确定的。
kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。
kd树是二叉树,表示对k维空间的一个划分。
构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间划分,构成一系列的k维超矩形区域。
kd树的每一个结点对应于一个k维超矩形区域。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。
决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。
决策树:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。
结点有两种类型:内部结点和叶结点。
内部结点表示一个特征或属性,叶结点表示一个类。
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分配到叶结点的类中。
特征选择在于选取对训练数据具有分类能力的特征。
通常特征选择的准则是信息增益或信息增益比。
在信息论与概率统计中,熵是表示随机变量不确定的度量。
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
特征A对训练数据集D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合D的经验熵 H ( D ) H(D) H(D)与特征A给定条件下D的经验条件熵 H ( D ∣ A ) H(D|A) H(D∣A)之差,即
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
一般地,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
具体方法是:
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;
再对子结点递归地调用以上方法,构建决策树;
直到所有特征的信息增益均很小或没有特征可以选择为止。
最后得到一棵决策树。
ID3相当于用极大似然法进行概率模型的选择。
决策树生成算法递归地产生决策树,直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。
在决策树学习中将已生成的树进行简化的过程称为剪枝。具体来说,剪枝从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。
分类与回归树模型(CART)
CART算法由以下两步组成:
最大熵原理是概率模型学习的一个准则。
最大熵原理认为,学习概率模型时,在所有可能的模型分布中,熵最大的模型是最好的模型。
支持向量机是一种二分类模型。
它的基本模型是定义在特征空间上的间隔最大的线性分类器。
支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。
对线性可分的训练数据集而言,线性可分分离超平面有无穷多个(等价于感知机),但是几何间隔最大的分离超平面是唯一的。
提升方法是一种常用的统计学习方法,应用广泛且有效。
在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
EM算法的每次迭代由两步组成:
E步,求期望;
M步,求极大。
所以这一算法称为期望极大算法。
隐马尔可夫模型是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测数列的过程,属于生成模型。
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序列的过程。
隐藏的马尔科夫链随机生成的状态的序列,称为状态序列;
每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列。
序列的每一个位置又可以看作是一个时刻
维特比算法实际是用动态规划解隐马尔可夫模型预测问题,即用动态规划求概率最大路径(最优路径)。
条件随机场(CRF)是给定一组输入随机变量下另一组输出随机向量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。
概率无向图模型,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。
条件随机场是给定随机变量X条件下,随机变量Y的马尔可夫随机场。
在线性链上的特殊的条件随机场,称为线性链条件随机场。
无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚降维、概率估计。
无监督学习可以用于数据分析或者监督学习的前处理。
聚类是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。
如果一个样本只能属于一个类,则称为硬聚类;
如果一个样本可以属于多个类,则称为软聚类。
降维是将训练中的样本(实例)从高维空间转化到低维空间。假设样本原本存在于低维空间,或者近似地存在于低维空间,通过降维则可以更好地表示样本数据的结构,即更好地表示样本之间的关系。
高维空间通常是高维的欧氏空间,而低维空间是低维的欧氏空间或者流形。
简称概率估计,假设训练数据由一个概率模型生成,由训练数据学习概率模型的结构和参数。
模型、策略、算法
模型就是函数 z = g 0 ( x ) z=g_0(x) z=g0(x),条件概率分布 P 0 ( z ∣ x ) P_0(z|x) P0(z∣x),或条件概率分布 P 0 ( x ∣ z ) P_0(x|z) P0(x∣z),在聚类、降维、概率模型估计中拥有不同的形式。
比如,聚类中模型的输出就是类别;降维中模型的输出是低维向量;概率模型估计中的模型可以是混合概率模型,也可以是有向概率图模型和无向概率图模型。
策略在不同的问题中有不同的形式,但都可以表示为目标函数的优化。
比如,聚类中样本与所属类别中心距离的最小化,降维中样本从高维空间转换到低维空间过程中信息损失的最小化,概率模型估计中模型生成数据概率的最大化。
算法通常是迭代算法,通过迭代目标达到目标函数的最优化,比如,梯度下降法。
层次聚类法、k均值聚类是硬聚类方法,高斯混合模型EM算法是软聚类方法。主成分分析、潜在语义分析是降维方法。概率潜在语义分析、潜在狄利克雷分配是概率模型估计方法。
聚类的对象是观测数据、或样本集合。假设有n个样本,每个样本由m个属性的特征向量组成。
聚类的核心概念是 相似度或距离,有多种相似度或距离的定义。
因为相似度直接影响聚类的结果,所以其选择是聚类的根本问题。
在聚类中,可以将样本集合看作是向量空间中点的集合,以该空间的距离表示样本之间的相似度。
常用的距离有闵可夫斯基距离,特别是欧氏距离。
闵可夫斯基距离越大相似度越小,距离越小相似度越大。
简称马氏距离,也是另一种常用的相似度,考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。
马哈拉诺比斯距离越大相似度越小,距离越小相似度越大。
相关系数的绝对值越接近于1,表示样本越相似;
越接近于0,表示样本越不相似。
样本之间的相似度也可以用夹角余弦来表示。
夹角余弦越接近于1,表示样本越相似;
越接近于0,表示样本越不相似。
层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类又有聚合或自下而上聚类、分裂或自上而下聚类两种方法。
是基于样本集合划分的聚类算法。
k均值聚类将样本集合划分为k个子集,构成k个类,将n个样本分到k个类中,每个样本到其所属类的中心的距离最小。
每个样本只能属于一个类,所以k均值聚类是硬聚类。
奇异值分解(SVD)是一种矩阵因子分解方法。
主成分分析(PCA)是一种常用的无监督学习方法。
这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。
潜在语义分析(LSA)是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。
文本信息处理,比如文本信息检索、文本数据挖掘的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
最简单的方法是利用向量空间模型(VSM)。
两个文本的语义相似度可以体现在两者的话题相似度上。
也称概率潜在语义索引,是一种利用概率生成模型对文本集合进行话题分析的无监督学习算法。
模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布,首先基于该马尔可夫链进行随机游走,产生样本的序列,之后使用该平稳分布的样本进行近似数值计算。
吉布斯抽样用于多元变量联合分布的抽样和估计。
其基本做法是,从联合概率分布定义满条件概率分布,依次对满条件概率分布进行抽样,得到样本的序列。
潜在狄利克雷分配(LDA)模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布也是狄利克雷分布。
先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象。
是图的链接分析的代表性算法,属于图数据上的无监督学习算法。
算法的基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。
在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其PageRank值,表示结点的重要度。
PageRank是递归定义的,计算可以通过迭代算法进行。