机器学习致力于研究如何 通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会听相应的判断。如果计算机科学是研究关于“算法”的学问,那么类似的,机器学习是研究关于“学习算法”的学问。
“模型”泛指从数据中学得的结果。“模式”指局部性结果。
预测的是离散值,此类学习任务称为“分类(classification)”;若欲预测的是连续值,此类任务称为“回归(regression)”对只涉及两个类别的“二分类(binary classification)”任务,通常称其中一个类为“正类(positive class)”,另一个类为“反类(negative class)”;涉及多个类别是,则称为“多分类(multi-class classification)”任务。一般的,预测任务是希望通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{ (x_1, y_1), (x_2, y_2), ..., (x_m, y_m)\} {(x1,y1),(x2,y2),...,(xm,ym)} 进行学习,建立一个从输入空间 X X X到输出空间 y y y的映射: f : x → y f:x \rightarrow y f:x→y。对二分类任务,通常令 y = { − 1 , + 1 } y = \{-1, +1\} y={−1,+1}或 { 0 , 1 } \{0, 1\} {0,1};对多分类任务, ∣ y ∣ > 2 |y|>2 ∣y∣>2;对于回归任务, y = R y=R y=R, R R R为实数集。
学得的模型食用油新样本的能力,称为“泛化”(generalization)能力。具有强泛化能力的模型能很好的适用于整个样本空间。尽管训练集通常只是样本空间的一个很小的采样,仍希望它能够很好的反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作的很好。通常建设样本空间中全体样本服从一个位置“分布”(distribution),我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed)。一般而言,训练样本越多,得到的关于分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。“从样例中学习”是一个归纳的过程,也称为“归纳学习”(inductive learning)。
学习的过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的样本判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
现实问题中我们面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有很多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)。
通过学习得到的模型对应了假设空间只能的一个假设。对于学习算法而言,必须要产生一个模型,这时,学习算法本身的“偏好”就会起到关键作用。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,从而无法产生确定的学习结果。如果没有偏好,学习算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,那么对于同一个测试样本,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果,显然是没有意义的。
每个训练样本是一个点,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然,对有限个样本点组成的训练集,存在着很多条曲线与其一致,我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。“奥卡姆剃刀”(Occarm’s razor)是一种常见的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
奥卡姆剃刀并非唯一可行的原则,事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,在具体的实际问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
“没有免费的午餐”定理(No Free Lunch Theorm,简称NFL定理)让我们认识到,脱离具体问题,空泛的谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。
为了在新样本上能表现的很好,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然而,当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合”(overfitting),与“过拟合”相对的是“欠拟合”(underfitting),这是指对训练样本的一般性质尚未学好。
通过实验测试啦对学习器的泛化误差进行评估并进而做出选择。使用测试集(testing set)来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testing error)作为泛化误差的近似。假设测试样本也是从样本真实分布中独立同分布采样而得。但是,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。
通过对样例数据集进行适当处理,从中产生训练集和测试集。
留出法(hold-out)
直接将数据划分为两个互斥的集合,一个集合作为训练集,另一个作为测试集,在训练集上训练处模型后,用测试集评估其测试误差,作为对泛化误差的估计。将大约2/3~4/5的样本用于训练,剩余样本用于测试。
自助法(bootstrapping)
自助法在数据集较小、难以有效划分训练/测试集时很有用;此外自主法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。
调参与最终模型
对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要衡量模型泛化能力的评价标准,这就是性能度量(performance measure)。
错误率与精度
查准率、查全率与F1(二分类问题)
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
ROC与AUC
很多学习器为了测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值(threshold)进行比较,若大于阈值则为正类,否则为反类。
代价敏感错误率与代价曲线
现实任务中会遇到不同类型的错误所造成的后果不同。为权衡不同类型错误所造成的的不同损失,为错误赋予“非均等代价”(unequal cost)。
有了实验评估方法和性能度量,就能对学习器的性能进行评估比较了:先使用某种实验评估方法测得学习器的某个性能度量结果,然后对这些结果进行比较。
统计假设检验为进行学习器性能比较提供了重要依据。默认以错误率为性能度量。
“偏差-方差分解(bias-variance decomposition)”是解释学习算法泛化性能的一种重要工具。偏差-方差分解试图图学习算法的期望泛化错误率进行拆解。
做分类任务时,需要找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。最理想的是单位阶跃函数(unit-step function),单位阶跃函数不连续,需要用单调可微的对数几率函数(logistics function)替代单位阶跃函数。对数几率函数是一种“Sigmoid函数”,它将真实值转换为一个接近0或1的值,且其输出值在0附近变换很陡。
类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。
决策树(decision tree)是一类常见的机器学习方法。决策是是基于树结构精细决策的。一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略。
决策树的生成式一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:
决策树学习的关键是如何选择最优划分属性,一般而言,随着划分过程不断进行,希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。
增益率
把“编号”也作为一个候选划分属性,“编号”的每个分支结点仅包含一个样本,这些分支结点的纯度已达最大,这样的决策树不具有泛化能力,无法对新样本进行有效预测。
信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响。使用“增益率”(grain ratio)来选择最优划分属性。增益率定义为:
增益率准则对可取值数目较少的属性有所偏好,算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式,先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。在决策树的学习中,为了尽可能正确训练样本,结点划分过程将不断重复,有时也会造成决策树分支过多,这时就可能因为训练样本学得“太好了”,以至于把训练集吱声的一些特点来当作所有数据都具有的一般性质而导致过拟合。因此,可通过主动去掉一些分支来降低过拟合的风险。
决策树剪枝的基本策略有:
若把每个属性视为坐标空间中的一个坐标轴,则d个属性描述的描述样本就对应了d维空间中的一个数据点,对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界。决策说所形成的分类边界有一个明显的特点:轴平行(axis-parallel),即它的分类边界由若干个与坐标轴平行的分段组成。因为每一段划分都直接对应了某个属性取值,这样的分类边界使得学习结果有较好的可解释性。但在学习任务的真实分类边界比较复杂时,必须使用很多段划分才能获得较好的近似,由于要进行大量的属性测试,预测时间开销会很大。
多变量决策树(multivariate decision tree)能实现斜划分,甚至更复杂划分的决策树。以实现斜划分的多变量决策树为例,在此类决策树中,非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试;每个非叶结点是一个线性分类器,与“单变量决策树”(univariate decision tree)不同,在多变量决策树的学习过程中,不是为每个非叶结点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。
神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
M-P神经元模型接收来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。理想中的激活函数为阶跃函数,将输入值映射为输出值为0和1,对应于神经元抑制和兴奋。因为阶跃函数具有不连续、不光滑、等不太好的性质,实际常用Sigmoid函数作为激活函数。它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内,因此有时也称为“挤压函数”(squashing function)。
把多个这样的神经元按一定的层次结构连接起来,就得到了神经网络。从计算机的角度,可以不考虑神经网络是否真的模拟了生物神经网络,只需要将一个神经网络视为包含了许多参数的数学模型,这个模型是若干个函数。
感知机(Perceptron)由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”(threshold logic unit)。
感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),其学习能力非常有限。若两类模式是线性可分的,即存在一个超平面能将它们分开,则感知机的学习过程一定会收敛而求得适当的权向量;否则感知机学习过程将会发生振荡,不能求得合适解。
要解决非线性可分问题,需要考虑使用多层功能神经元。输入输出层之间的一层神经元,被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元。
常见的神经网络是“前馈神经网络”(multi-layer feedforward neural networks),每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接。其中输入层神经元接收外界输入,隐层与输出层神经元对信号进行加工,最终结果由输出层神经元输出;输入层神经元仅是接收输入,不进行函数处理,隐层与输出层包含功能神经元。
神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权以及每个功能神经元的阈值,神经元学到的东西都蕴含在连接权与阈值中。
逆向传播(error BackPropagation,简称BP)算法使最成功的神经网络学习算法。现实任务中使用神经网络时,大多是在使用BP算法进行训练。
BP算的工作流程。对每个训练样例,BP算法执行以下操作:
神经网络在训练集上的误差,是关于连接权和阈值的函数。神经网络的训练过程可看作一个参数寻优过程,即在参数空间中,寻找一组最优参数使得误差最小。
在现实任务中,通常采用如下策略来试图跳出局部极小,从而进一步接近全局最小:
给定训练样本集,分类学习最基本的想法就是基于训练集在样本空间中找到一个划分超平面,将不同类别的样本分开。
假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类。然而在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面(例如异或问题就不是线性可分的)。
对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用,事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。任何一个核函数都隐式的定义了一个称为“再生核希尔伯特空间”的特征空间。
我们希望样本在特征空间中线性可分,因此特征空间的好坏对支持向量机的性能至关重要。但是在不知道特征映射的形式时,并不知道什么样的核函数是合适的,而核函数也仅是隐式的定义了这个特征空间。核函数的选择是支持向量机的关键。若核函数选择不合适,则意味这将样本映射到了一个不合适的特征空间,很可能导致性能不佳。
现实任务中很难确定合适的核函数使得训练样本在特征空间中线性可分;即便找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。
缓解该问题的一个办法是允许支持向量机在一些样本上出错。软间隔允许某些样本不满足约束:
贝叶斯决策(Bayes Decision Theory)概率框架下实施决策的基本方法。它是决策论(Decision Theory)和概率论(Probability Theory)的组合。
贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
基于贝叶斯来估计后验概率 P ( c ∣ x ) P(c|x) P(c∣x)的主要困难在于:类条件概率 P ( x ∣ c ) P(x|c) P(x∣c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为了避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立,换言之,假设每个属性独立的对分类结果发生影响。
贝叶斯网(Bayesian Network)亦称“信念网”(belief network),它借助有向无环图(Directed Acyclic Graph,简称DAG)来刻画属性之间的依赖关系,并使用条件属性概率表(Conditional Probability Table,简称CPT)来描述属性的联合概率分布。
- 贝叶斯分类器:通过最大后验概率进行单点估计。
- 贝叶斯学习:通过最大后验概率进行分布估计。
EM算法:常见地计算隐变量估计方法,常被用来学习高斯混合模型的参数。
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。
集成学习的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算从训练数据产生,若集成中只包含同类型的个体学习器,这样的集成是“同质”的(homogeneous)。同质集成中的个体学习器亦称“基学习器”(base learner),相应的学习算法称为“基学习算法”(base learning algorithm)。若集成包含不同类型的个体学习器,这样的集成是“异质”(heterogenous)的。异质集成中的个体学习器由不同的学习算法生成,这时就不再有基学习算法;相应的,个体学习器一般不称为基学习器,常称为“组件学习器”(component learner)或直接称为个体学习器。
根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表算法是Boosting;以及个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表算法是Bagging和随机森林(Random Forest)。
Boosting是一族将弱学习器提升为强学习器的算法。这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。
Boosting算法要求基学习器能对特定的数据分布进行学习,这可通过“重赋权法”(re-weighting)实施,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法,则可通过“重采样法”(re-sampling)来处理,即在每一轮学习中,根据样本分布对训练集重新进行采样,再用重采样而得的样本集对基学习器进行训练。一般而言,这两种做法没有显著的优劣差别。Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件,一旦条件不满足,则当前基学习器即被抛弃,且学习过程停止。在此种情形下,初始设置的学习轮数T也许还远未达到,可能导致最终集成中只包含很少的基学习器而性能不佳。若采用“重采样法”,则可获得“重启动”机会以避免训练过程过早停止,即咋抛弃不满足条件的当前基学习器之后,可根据当前分布重新对训练样本进行采样,再基于新的采样结果重新训练出基学习器,从而使得学习过程可以持续到预设的T轮完成。
欲得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大的差异。给定一个训练数据集,一种可能的做法是对训练样本进行采样,产生出若干个不同的子集,再从每个子集中训练出一个基学习器。这样,由于训练数据不同,获得的基学习器可望具有比较大的差异。
学习器结合可能会从三个方面带来好处:
几种常见的结合策略:
在无监督学习(unsupervised learning)中,训练样本的标记信息时未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务只能研究最多、应用最广的是聚类(clustering)。
聚类试图将数据集的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。
属性分为连续属性和离散属性,连续属性在定义域上有无穷多个可能的取值,离散属性在定义域上是有限个取值。离散属性不能直接在属性值上计算距离。
密度聚类亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。
AGNES是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。
k k k近邻( k − N e a r e s t N e i g h b o r k-Nearest Neighbor k−NearestNeighbor,简称 k N N kNN kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k k k个训练样本,然后基于这 k k k个“邻居”的信息来进行预测。通常,在分类任务中可使用“投票法”,即选择这 k k k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”,即将 k k k各样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。
k k k近邻学习没有显示的训练过程,它是“懒惰学习”(lazy learning)的著名代表,此类学习技术在训练阶段仅仅是把
样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法,称为“急切学习”(eager learning)。
在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被陈伟“维数灾难”(curse of dimensionality)。
缓解维数灾难的一个重要途径是降维(dimension reduction)亦称维数约简,即通过某种数学变换将原始高维属性空间转变为一个低维子空间(subspace),在这个子空间中样本密度大幅提高,距离计算也变得更为容易。为什么能降维?这是因为在很多时候,人们观测或收集到的数据样本虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维嵌入(embedding)。
若要求原始空间样本之间的距离在低维空间中得以保持,多维缩放(Multiple Dimensional Scaling,简称MDS)是一种经典的降维方法。
对于正交属性空间中的样本点,若用一个超平面(直线的高维推广)对所有样本进行恰当的表达,那么这个超平面大概应具有这样的性质:
基于最近重构性和最大可分性,能分别得到主成分分析的两种等价推导。
香型降维方法假设从高维到低维空间的函数映射是线性的,然而,在不少现实任务中,可能需要非线性映射才能找到恰当的低维嵌入。非线性降维的一种常用方法,是基于核技巧对线性降维方法进行“核化”(kernelized)。核主成分分析(Kernelized PCA,简称KPCA)示例:
流行学习(manifold learning)是一类借鉴了拓扑流行概念的降维方法。“流形”是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这给降维方法带来了很大的启发:若低维流行嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧氏空间的性质,因此,可以容易的在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。当维数被降至二维或三维时,能对数据进行可视化展示,因此流行学习也被用于可视化。
在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量。度量学习(metric learning)的基本动机就是尝试学习出一个合适的距离度量。
对M信息学习当然要设置一个目标。假定我们是希望提高近邻分类器的性能,则可将M直接嵌入到近邻分类器的评价指标中去,通过优化该性能指标相应的求得M。以近邻成分分析(Neighbourhood Component Analysis,简称NCA)为例进行讨论。
实际上,我们不仅能把错误率这样的监督学习目标作为度量学习的优化目标,还能在度量学习中引入领域知识。
将特征子集搜索机制与子集评价机制项结合,即可以得到特征选择方法。
常见的特征选择方法大致可分为三大类:
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。
Relief(Relevant Features)是一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是,最终只需指定一个阈值 τ \tau τ,然后选择比 τ \tau τ大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数 k k k,然后选择相关统计量分量最大的 k k k个特征。
与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。即包裹式特征选择的目的就是为了给定学习器选择最有利于其性能、“量身定做”的特征子集。
由于包裹式特征选择方法直接针对给定学习器进行优化,因此,从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大的多。
LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法。它在拉斯维加斯方法(Las Vegas method)框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。
在过滤式和包裹式特征选择方法中,特征选择过程与学习器训练过程有明显的分别;与此不同,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
把数据集D考虑成一个矩阵,其每行对应于一个样本,每列对应于一个特征。特征选择所考虑的问题是特征具有“稀疏性”,即矩阵中的许多列与当前学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解释性也会提高。
在一般的学习任务中,为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使学习任务得以简化,模型复杂度得以降低,通常称为“字典学习”(dictionary learning),亦称“稀疏编码”(sparse coding)。“字典学习”更侧重于学得字典的过程,而“稀疏编码”则更侧重于对样本进行稀疏表达的过程。由于两者通常是在同一个优化求解过程中完成,因此不做进一步区分,统称为字典学习。
与特征选择、稀疏表示不同,压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。通常认为,压缩感知分为“感知测量”和“重构恢复”这两个阶段。“感知测量”关注如何对原始信号进行处理以获得稀疏样本表示;“重构恢复”关注的是如何基于稀疏性从少量观测中恢复原信号,这是压缩感知的精髓,当谈到压缩感知时,通常是指该部分。
计算学习理论(computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
计算学习理论中最基本的是概率近似正确(Probability Approximately Correct, 简称PAC)学习理论。
现实学习任务所面临的通常是无限假设空间,最常见的办法是考虑假设空间的“VC维”(Vapnik-Chervonenkis dimension)。
基于VC维的泛化误差界是分布无关的、数据独立的,也就是说,对任何数据分布都成立。这使得基于VC维的可学习性分析结果具有一定的普适性;但从另一方面来说,由于没有考虑数据自身,基于VC维得到的泛化误差界通常比较松,对那些学习问题的典型情况相差甚远的较坏分布来说尤其如此。
Rademacher复杂度是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑数据分布。
无论是基于VC维还是Rademacher复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则需另辟蹊径。稳定性分析是这方面一个值得关注的方向。
算法的稳定性考察的是算法在输入发生变化时,输出是否会随之发生较大的变化。学习算法的输入是训练集。
让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是“聚类假设”(cluster assumption)即假设数据存在簇结构,同一个簇的样本属于同一个类别。基于聚类假设来利用未标记样本,由于待预测样本与正例样本通过未标记样本的“撮合”聚在一起,与相对分离的反例样本相比,待判别样本更可能属于正类。半监督学习的另一种常见的假设是“流形假设”(manifold assumption),即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。“邻近”程度常用“相似”程度来刻画,因此,流形假设可看作聚类假设的推广,但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,无论聚类假设还是流形假设,其本质都是“相似的样本拥有相似的输出”这个基本假设。
半监督学习可进一步划分为纯(pure)半监督学习和直推半监督学习(transductive learning)。
生成式方法(generative methods)是直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。
此类方法简单,易于实现,在有标记数据极少的情形下往往比其他方法性能更好,然而,此类方法有一个关键:模型假设必须准确,即假设的生成式模型必须与真实分布吻合;否则利用未标记数据反倒会降低泛化性能,但是在现实任务中很难事先做出准确的模型假设,除非拥有充分可靠的领域知识。
半监督支持向量机(Semi-Supervised Support Vector Machine,简称S3VM)是支持向量机在半监督学习上的推广。S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面。
半监督支持向量机的中最著名的的TSVM(Transductive Support Vector Machine),是针对二分类问题的学习方法。TSVM试图考虑对未标记样本进行各种可能的标记指派(label assignment),即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面。一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。
在对未标记样本进行标记指派及调整的过程中,有可能出现类别不平滑问题,即某类的样本远多于另一类,这将对SVM的训练造成困扰。为减轻类别不平衡性所造成的不利影响,可对算法稍加改进:将优化目标汇总的 C u C_u Cu项拆分为 C u + C_u^+ Cu+与 C u − C_u^- Cu−两项,分别对应于基于为标记而正当作正、反例使用的未标记样本。
给定一个数据集,可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”(strength)正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。
上面描述的是一个针对二分类问题的标记传播方法,多分类问题的标记传播方法为:
图半监督学习方法在概念上相当清晰,且易于通过所渉矩阵算法的分析来探索算法性质。但是此类算法的缺陷额相当明显;
与生成式方法、半监督SVM、图半监督学习等急用单学习器利用未标记数据不同,基于分歧的方法(disagreement-based methods)使用多学习器,而学习器之间的“分歧”对未标记数据的利用至关重要。
“协同训练”(co-training)是此类方法的重要代表,它最初是针对“多视图”(multi-view)数据设计的,因此也被看作“多视图学习”(multi-view learning)的代表。
协同训练利用了多视图的“相容互补性”。假设数据拥有两个充分(sufficient)且条件独立视图,“充分”是指每个视图都包含足以产生最优学习器的信息,“条件独立”则是指在给定类别标记条件下两个视图独立。在此情形下,可用一个简单的办法来利用未标记数据:
聚类任务中获得的监督线性大致有两种类型:
概率图模型(probabilistic model)提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为“推断”(inference),其核心是如何基于可观测变量推测出未知变量的条件分布。
概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即“变量关系图”。根据边的性质不同,概率图模型可大致分为两类:
隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最简单的动态贝叶斯网(dynamic bayesian network),是一种有向图模型,主要用于时序数据建模,在语音识别、自然语言处理等领域哟广泛应用。
马尔可夫随机场(Markov Random Field,简称MRF)是典型的马尔可夫网,值一种著名的无向图模型。图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。马尔可夫随机场有一组势函数(potential functions),亦称“因子”(factor),这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。
马尔可夫随机场总的势函数的作用是定量刻画变量集中变量之间的相关关系,它应该是非负函数,且在所偏好的变量取值上有较大函数值。
条件随机场(Conditional Random Field,简称CRF)是一种判别无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模。隐马尔可夫模型和马尔可夫随机场都是生成模型,而条件随机场是判别式模型。
条件随机场试图对多个变量在给定观测值后的条件概率进行建模。具体来说,若令 x = { x 1 , x 2 , . . . , x n } x = \{x_1, x_2, ...,x_n \} x={x1,x2,...,xn}为观测序列, y = { y 1 , y 2 , . . . , y n } y = \{y_1, y_2,..., y_n\} y={y1,y2,...,yn}为与之相应的标记序列,则条件随机场的目标是构建条件概率模型 P ( y ∣ x ) P(y|x) P(y∣x)。标记变量 y y y可以是结构型变量,即其分量之间具有某种相关性。例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构;在语法分析任务中,输出标记则是语法树,具有树形结构。
基于概率图模型定义的联合概率分布,对目标变量的边际分布(marginal distribution)或以某些可观测变量为条件的条件分布进行推断。条件分布如在隐马尔可夫模型中要估算观察序列在给定参数下的条件概率分布。边际分布则是指对无关变量求和或积分后得到结果,在马尔可夫网中,变量的联合分布被表示成极大团的势函数乘积,于是,给定参数求解某个变量的分布就变成对联合分布中其他无关变量进行积分的过程,这称为“边际化”。
概率图模型的推断方法大致可分为两类。第一类是精确推断方法,希望能计算出目标变量的边际分布或条件分布的精确值;一般情形下,此类算法的计算复杂度随着极大团规模的增长呈指数增长,适用范围有限。第二类近似推断方法,希望在较低的时间复杂度下获得原问题的近似解;此类方法在实际任务中更长见。
变量精确腿短的实质是一类动态规划算法,它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。
精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用。近似推断方法大致可分为两大类:第一类是采样,通过使用随机方法完成近似;第二类是使用确定性近似完成近似推断,典型代表为变分推断(variational inference)。
话题模型是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。
规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。
从形式语言表达能力而言,规则可分为两类:
规则学习的目标是产生一个能覆盖尽可能多的样例的规则集。最直接的做法是“序贯覆盖”(sequential covering),即逐条归纳:在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此被称为“分治”(separate-and-conquer)策略。
现实任务中一般有两种方法来产生规则:
规则生成本质上是一个贪心搜索过程,需有一定的机制来缓解过拟合的风险,最常见的做法是剪枝(pruning)。与决策树相似,剪枝可发生在规则生长过程中,即“预剪枝”,也可发生在规则产生后,即“后剪枝”。通常是基于某种性能度量指标来评估增/删逻辑文字前后的规则性能,或增/删规则前后的规则集性能,从而判断是否要进行剪枝。
受限于命题逻辑表达能力,命题规则学习难以处理对象之间的“关系”(relation),而关系信息在很多任务中非常重要。需用一阶逻辑表示,并且要使用一阶规则学习。
一阶规则学习能容易的引入领域知识,这是它相对于命题规则学习的另一大优势。在命题规则学习乃至一般的统计学习中,若欲引入领域知识,通常有两种做法:在现有属性的基础上基于领域知识构造出新属性,或基于领域知识设计某种函数机制(例如正则化)来对假设空间加以约束。然而,现实任务中并非所有的领域知识都能容易的通过属性重构和函数约束来表达。
FOIL(First-Order Inductive Learner)是著名的一阶规则学习算法,它遵循序贯覆盖框架且采用自顶向下的规则归纳策略。FOIL增益与决策树使用的信息增益不同,它仅考虑正例的信息量,并且用新规则覆盖的正例数作为权重。这是由于关系数据中正例数往往远少于反例数,因此通常对正例应赋予更多关注。继续增加规则体长度,最终生成合适的单条规则加入规则集。此后,FOIL使用后剪枝对规则集进行优化。若允许将目标谓词作为候选文字加入规则体,则FOIL能学出递归规则;若允许将否定形式的文字作为候选,则往往能得到更简洁的规则集。
FOIL是命题规则学习与归纳逻辑程序设计之间的过渡,其自定向下的规则生成过程不能支持函数和逻辑表达式嵌套,因此规则表达能力仍有不足;但它是把命题规则学习过程通过变量替换等操作直接转化为一阶规则学习,因此比一般归纳逻辑程序设计技术更高效。
归纳逻辑程序设计(Inductive Logic Programming,简称ILP)在一阶规则学习中引入了函数和逻辑表达式嵌套。一方面,这使得机器学习系统具备了更为强大的表达能力;另一方面,ILP可看作用机器学习技术来解决基于背景知识的逻辑程序(logic program)归纳,其学得的“规则”可被PROLOG等逻辑程序设计语言直接使用。
然而,函数和逻辑表达式嵌套的引入也带来了计算上的巨大挑战。这就使得规则学习过程中可能的候选原子公式有无穷多个。若仍采用命题逻辑规则或FOIL学习那样自顶向下的规则生成过程,则在增加规则长度时将因无法列举所有候选文字而失败。实际困难还不止这些,例如计算FOIL增益需要对规则覆盖的全部正反例计数,而在引入函数和逻辑表达式嵌套之后这也变得不可行。
多步强化学习任务,假定任务对应的马尔可夫决策过程四元组均是已知,模型已知,即机器已对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况。
在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态。若学习算法不依赖于环境建模,则称为“免模型学习”(model-free learning),这比有模型学习困难的多。
值函数是关于有限状态的表格值函数(tabular value function),即值函数能表示为一个数组,输入 i i i对应的函数值就是数组元素 i i i的值,且更改一个状态上的值不会影响其他状态上的值。
在强化学习的经典任务设置中,机器所能获得的反馈信息仅哟多步决策后的累积奖赏,但在现实任务中,往往能得到人类专家的决策过程范例,从这样的范例中学习,称为“模仿学习”(imitation learning)。