第三章 线性模型

3.1基本形式

线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想.许多功能更为强大的非线性模型( nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得.此外,由于w直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性( comprehensibility).例如若在西瓜问题中学得“f好瓜(x)=0.2・x色泽+05・x根蒂+0.3・x敲声+1”,则意味着可通过综合考虑色泽、根蒂和敲声来判断瓜好不好,其中根蒂最要紧,而敲声比色泽更重要。

3.2线性回归

给定数据集D,其中xi=(xi1;xi2;...xid),yi属于R。“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”( least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

现实任务中XTX往往不是满秩矩阵,例如在许多任务中我们会遇到大量的变量,其数目甚至超过样例数,导致X的列数多于行数,XTX显然不满秩,此时可解出多个w预测值,它们都能使均方误差最小化.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化项。

3.3对数几率回归

考虑二分类任务,其输出标记y属于{0,1},而线性回归模型产生的预测值z=wTx+b是实值,于是我们需将实值z转换为0/1值.最理想的是“单位阶跃函数”(unit- step function)。

单位阶跃函数不连续,因此不能直接用作式(3.15)中的g-(.)。于是我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微.对数几率函数(ogsefunction)正是这样一个常用的替代函数。

这种方法有很多优点,例如它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题:它不是仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;此外,下面我们会看到,对率回归求解的目标函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。

3.4线性判别分析

LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

3.5多分类学习

不失一般性,考虑N个类别C1、C2、C3...CN,多分类学习的基本思路是拆解法,即将多分类任务拆为若干个二分类任务求解。先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器:在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。

OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。

MvM是每次将若干个类作为正类,若干个其他类作为反类。MvM的正、反类构造必须有特殊的设计,不能随意选取.这里我们介绍一种最常用的MvM技术:“纠错输出码”( Error Correcting Output Codes,简称ECOC)

ECOC[ Dietterich and Bakir,1995]是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性,ECOC工作过程主要分为两步:

1.编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M个训练集,可训练出M个分类器.

2.解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.

3.6类别不平衡问题

类别不平衡就是指分类任务中不同类别的训练例数目差别很大的情况。

你可能感兴趣的:(第三章 线性模型)