监督学习——分类(基于似然的方法)

介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理

在分类任务中,通过训练数据中的类别标签来学习类别,最基本的问题是二分类。

对于分类的监督学习任务,其模型的选择就是给出使学习分类成为可能的假设类。给出的假设类也就是分类学习的归纳偏倚,是对学习中不确定的解取舍的一种倾向。

给定一个接近分类边缘的实例,不同的假设可能做出不同的预测。我们的假设对不在训练集中的实例的准确率如何,就是度量假设归纳偏倚质量的泛化能力。要做到假设类的复杂度与数据的函数复杂度相匹配,否则就会产生欠拟合和过拟合的问题。这在所有机器学习任务中都是相通的。

一种可能的假设策略是,给出最特殊的假设。使其刚好覆盖所有正例的最特殊解S,或是刚好排除所有负例的最一般解G。当然,在这两个最特殊假设之间的解空间中,取一个同样满足划分训练数据集的解,也是可行的。(这种在特殊边界中间选择的解,类似于支持向量机方法中边缘的概念,具体见《核机器》。)

实际上,依赖于训练集和假设类,可以存在多个S和G。如若在类边界处有足够的数据,或可得到唯一的边界。(有时,错误的判断可能代价很高,由于缺乏数据支撑,加之数据误差等因素,S和G之间的实例是不确定的。这种情况下,系统拒绝判断,留待人类专家判定更为合理。)可见,对于分类问题,边界处的数据是得到准确解的关键。


不确定情况下决策的概率理论框架

对于一个问题,当存在一些可获得的知识作为输入的情况下,往往可以更准确地获得输出结果。比如当知道硬币的确切成分,初始位置,投币的力度及方向,借币的方式时,投币的结果可以准确地预测。

但不能获取额外知识作为输入,或说存在一些不可观测变量时(最极端情况,只有输出结果是可观测变量,如投币的结果)。采用进行建模,是不可取的。因为确定性模型 f 需要x 作为输入,但x却不可观测量 。

对于只有输出可观测的情况,通过历史数据,直接计算各类占比(无偏估计量),可用于估计类概率。

对存在部分可观测输入数据,贝叶斯规则可用于计算类概率。

其中

——先验

——类似然

贝叶斯分类规则,选择最大后验为预测类。

当考虑决策风险时,每次选取风险最小的类为预测类。将 x 预测为类的期望风险是,是将属于的实例判定为的损失。

当时,,最小风险就是最大后验。但很少有应用有这种0-1损失的情况。

对于一些应用, 错误的决策往往有着很高的代价。如果自动系统对决策有很低的确定性,在系统中加入拒绝类K+1

\lambda_{ik}=\begin{equation}\left\{             \begin{array}{lr}            0, & i = k \\ \lambda, & i = K+1             \\1, & else\             \end{array}\right.\end{equation}

不将实例归为已知类。而是将不确定情况交给更复杂的系统进行判断。这就是级联的思想,具体见《集成学习——组合多学习器》中的介绍。

用于计算后验概率的类似然,可通果参数、半参数或非参数方法估计。


参数分类

    基于似然的方法

在不知道先验及类似然时,通过参数方法估计它们的参数。进而得到分类判别式的估计。通过各类判别式的大小来决定预测的分类结果。

1、x是一维的

x是一维的,如假设类似然是高斯分布,给定样本,其中x是一维的,是K维向量,.

对每个类,采用最大似然估计方法,估计得高斯分布参数

,,

先验。

带入后验判别式

等价地有判别式,将x指派到判别式最大的类中。

在存在参数先验的情况下,可采用的贝叶斯估计

必须注意,当x是连续变量时,不能急于将假设为高斯密度。可通过统计方法检验样本的正态性。不过,大多数场景下的随机分布往往遵循正态分布,并且正态分布在分析计算上更简单些。

2、x是多维的

多元情况下, 其中x是d维的,正态分布的,有,是协方差矩阵。

根据贝叶斯规则,有判别式函数

对给定个类的训练样本(类似一维输入的样本),分别对每个类求最大似然,得到对均值和协方差的估计:

,,类先验。

带入判别式函数,得到二次判别式估计。


当然,当样本较少,输入x的维度d很大时,S可能是奇异的,其逆不存在。或者|S|虽不为零,但是很小,这样S的逆就很大,不稳定,易受S变化的影响。为了使在小样本上的估计可靠,我们可能希望通过重新设计特征提取方式,选择特征子集或组合已有特征 来降低维度d。这个过程就是维度归约


另一种解决样本数据少的方法,是简化问题,汇集数据。如对所有类估计公共协方差矩阵

判别式化简为。这种情况下,每个类的判别式中,二次项都一样,可约去,得到线性判别式

,其中,。


在此基础上,假设各变量都是独立的,S及其逆的 非对角线元素均为0,就是朴素贝叶斯分类

当各输入变量为离散,且独立时,也是朴素贝叶斯分类的一个例子。

进一步地,如果假设所有输入变量都是相等的,则等价于为输入只有 1维的情况,马氏距离归约为欧氏距离。分布是球星的,S对角线元素都相等。

如果先验相等,则有,称为最近均值分类

如果所有的具有相同的范数,则有。此时,点积等价于负的欧式距离,来作为相似性度量。


这些提出假设,调整判别式函数的过程,实际上就是调整样本见距离函数的过程。寻找最佳距离函数,使对任意样本x1,x2,x3,当x1,x2同类,x1,x3不同类时,有。

上面提到的方法都是基于似然的方法,假设数据服从某一特定分布,使用样本数据估计模型参数(分布的概率密度),并使用贝叶斯规则计算后验,得到判别式。

对于基于判别式的方法,则可绕过对数据的密度估计,直接估计判别式。



非参数分类

使用非参数方法估计类密度

其中如果,则。是属于类的实例数,。

先验密度的MLE是。于是有判别式

在分类任务中,x被指派到判别式最大的类中。每个训练实例通过核函数K,为其所在的类投票。投票的权重由核函数K 给定。核函数K 赋予更近的实例更好的权重。

而对于k-nn估计,是简化的特殊情况,类密度估计为。其中是k个近邻中属于类的实例数,而是以x为中心,半径为的 d维超球的体积,(这里是距x 第k近的实例)。

对应得到类后验。

也就是说k-nn估计分类,将输入实例指派到其k个近邻实例中 具有最有实例的类中。所有的实例具有相同的投票权。为了减少不同类具有相同实例数的情况,k最好取奇数。

你可能感兴趣的:(监督学习——分类(基于似然的方法))