监督学习——回归

介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理

不同于分类,输出时离散的。回归的输出时连续的,需要学习的是一个数值函数。这个函数是未知的。假设我们从中抽取的样本训练集是,其中是一维的数值输出。

如果不存在噪声,任务就是插值。希望找到通过这些点的函数 f,使得。 

对于噪声,添加到未知函数上,有。引起噪声的因素则是不可观测量。

我们希望通过模型来逼近输出r,使得训练集X上的经验误差(误差平方和)最小。模型的选择很重要。 


参数回归

同上,假定输出是输入的确定性函数和随机噪声的和:

其中f 是未知函数,将用定义在参数上的估计来近似它。如果假设,则有,是给定输入下输出的概率。

训练集中的数据对取自联合概率密度,有。给定样本X,对数自然为

第二项不依赖估计,故等同于考虑

\begin{align}L(\theta|X) &=\log \prod_{i=1}^N \frac{1}{\sqrt{2\pi }\sigma}\exp[-\frac{[r^t-g(x^t|\theta)]^2}{2\sigma^2}] \\&=-N \log(\sqrt{2\pi}\sigma) -\frac{1}{2\sigma^2}\sum_{t=1}^N [r^t-g(x^t|\theta)]^2 \\\end{align}

第一项独立于参数,最大化上式,等同于最小化

形式上与上面所提经验误差一样,最小化它的就是最小二乘估计。可以看出,当误差服从正态分布时,最大化似然等同于最小化误差平方和,最大似然估计等同于最小二乘估计(least squares estimate),不论g是什么形式的函数。

在常见的线性回归多项式回归中,常使用这种方式,通过公式求得参数估计。以线性回归为例,有线性模型

对误差的平方和关于求导,得到

可以写成向量矩阵的形式,得到,其中

,,

基于误差平方和,有相对平方误差。其更接近0时,说明得到更好的拟合。如果接近1,说明模型不比采用平均值进行估计更好。

多元线性回归中,情况和一维的一样,最大化似然等价于最小化误差的平方和。


非参数回归

给定训练集,其中,假定。在参数回归中,假定g为某种多项式,并最小化训练集上的误差平方和。当不能假定多项式时,使用非参数回归,只假定相近的x 有相近的g(x)值。

与非参数密度估计一样,给定x,我们的方法是找出x 的邻域。并求领域中r 的某种平均值,作为g(x)的估计。这种非参数回归估计子称为光滑子,该估计成光滑。

类似于非参数密度估计,有不同的定义邻域的方式。

移动均值光滑

像直方图中那样,定义一个原定和箱宽度h,并求箱中 r 的平均值。得到回归

其中。

如质朴估计一样,在移动均值光滑中,于x周围定义一个对称箱来避免定义原点。

,其中。

核光滑

和核估计一样,让较远的实例点有较小的权重,并得到核光滑。

通常使用高斯核K。除了固定h,可使用x 与距其 第k近的实例 之间的距离,使得估计能自适应 x 周围的密度,得到k-nn光滑。

移动线光滑

取代在点上取点邻域内实例的平均值来进行估计拟合,使用输入x邻域内的实例数据,来拟合一条局部回归线。再给出x的输出。

局部加权移动线光滑(loess),通过核加权使较远的点对误差具有较小影响,而不是像移动线光滑一样使用邻域的硬定义。


回归树

运用非参数的决策树方法,同样能实现回归的目的。见《非参数方法——决策树》一节。

你可能感兴趣的:(监督学习——回归)