【周志华机器学习】线性模型

第三章 线性模型

  • 基本形式
  • 线性回归
  • 对数几率回归
  • 线性判别分析
  • 多分类学习
  • 类别不平衡问题

基本形式

线性模型试图学的一个通过属性的线性组合来进行预测的函数。若x1、x2…是一个样本的的属性取值,则:
在这里插入图片描述
一般用向量形式写成:
在这里插入图片描述
将参数W和b学的之后,模型就得以确定。

线性模型形式简单,易于建模,有很好的可解释性。许多功能更为强大的非线性模型可在线性模型的基础上通过引进层级结构或高维映射而得。

线性回归

线性回归试图学得:
在这里插入图片描述

如何确定w和b呢?关键在于衡量f(x)和y之间的差别均方误差是回归任务中最常用的性能度量,我们试图让均方误差最小化
基于均方误差最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条线,使得所有样本到直线上的欧式距离之和最小。
最后求得:
在这里插入图片描述
由于现实任务中变量数甚至超过样本数,此时会出现多个解。选择哪一个解输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化

对数几率回归

分类任务需要找到一个单调可微函数,将分类任务的真实标记Y与线性回归模型的预测值联系起来。
【周志华机器学习】线性模型_第1张图片
但是单位阶跃函数不连续,我们使用对数几率函数代替。
在这里插入图片描述

线性判别分析

线性判别分(LDA)是一种经典的先行学习方法,他的思想在于**给定训练样本,设法将样本投影到一条直线上,使得同类样例的投影点尽可能接近、异类尽可能远离。
【周志华机器学习】线性模型_第2张图片
因此要使同类的协方差尽可能小,异类的尽可能大。
类内散度矩阵
在这里插入图片描述
类间散度矩阵
在这里插入图片描述
则可得:
在这里插入图片描述

多分类学习

多分类学习的基本思路是拆解法:将多分类任务拆解成若干个二分类任务求解。具体有一对多,一对其余,多对多

一对一:对于一个N个类别的问题,可以产生N(N-1)/2个二分类任务。在测试阶段,新样本同时提交给所有分类器,于是我们得到多个分类结果,最终结果通过投票产生。
一对其余:将一个类当作正例,其余当作反例,共训练N个分类器。在测试时若仅有一个分类器为正类,则为分类结果。若有多个,则考虑各类分类器的置信度。

一对一训练数据少,一对多训练数据多,但一对一训练器多,在类别很多时,一对一训练时间开销通常较少,测试性能两者差不多。

多对多:多对多的类构造需要有特殊的设计,这里介绍一种最常用的:纠错输出码(ECOC)。

他将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。工作过程分两步:
编码:对N个类别做M次划分,每次划分将一部分类别划分为正类,一部分划分为反类,这样共产生M个训练集,M个分类器。
解码:M个分类分别对测试样本进行预测,这些预测标记组成一个编码。将预测编码分别与每个类别的编码比较,返回其中距离最小的类别作为结果。

ECOC对分类器的错误有一定的容忍和修正能力。编码越长,纠错能力越强,分类器越多。对同等长度的编码,任意两个类别之间的编码距离越远,纠错能力越强。

类别不平衡问题

前面介绍的分类学习法都有一个基本共同假设:不同类别的训练样本数目相当。若差别很大,则对学习过程做成困扰。

假设M+表示正例数目,M-表示反例数目。
本来分类器决策规则是:
在这里插入图片描述
修正为:
在这里插入图片描述
除此之外,还可以对样本数目少的进行过采样,增加数目。也可以对数目多的进行欠采样,减少数目。
注意,过采样不能简单对数据进行重复采样,会招致严重的过拟合。正确的过采样代表性算法是SMOTE,通过对训练集内少的类别进行插值来产生额外的样本。欠采样也不能随便丢弃样本,代表性算法是利用集成学习机制,将样本划分为多个集合供多个学习器使用。

你可能感兴趣的:(周志华机器学习,机器学习,逻辑回归,算法)