目录
3 线性模型
3.1 基本形式
3.2 线性回归
3.3 对数几率回归
3.4 线性判别分析
3.5 多分类学习
3.6 类别不平衡问题
课后习题
用向量形式写成
非线性模型可以由线性模型转化而成。
误差平方和
所谓线性回归,就是已知数据集学成一个线性模型,使得误差平方和最小。
具体的做法很简单,就是分别求Ew,b关于w和b的偏导并使其为0.
令上面的两个式子为0,解得:
下面我们讨论矩阵形式:
我们把w和b写成向量形式^w=(w,b),把数据集D表示成m(d+1)的矩阵X*。每一行对应一个示例,改行前d个元素表示d个属性值,最后一个为1:
把标记写成向量形式:y=(y1;y2;...;ym)
误差平方和的矩阵形式
解得,
考虑单调可微函数g(x),令y=g-1(wTx+b)。这样的模型称为广义线性模型。
上一节的线性模型用于回归学习,分类学习就需要有新的方法。
考虑二分类任务,输出标记y在0和1之间,我们将z=wTx+b转成0/1值,最理想的是单位阶跃函数
单位阶跃函数
但是单位阶跃函数不连续,不好算,所以我们用逻辑回归函数来代替,逻辑回归函数是一种Sigmoid函数。
逻辑回归函数
若将y视为样本x作为正例的可能性,则1-y是反例的可能性,二者比例y/1-y称为几率,其对数ln(y/1-y)称为对数几率。
我们可以用极大似然法来估计w和b。
我个人认为教材上写的有点难以理解,我找了一些博客:
线性判别分析(LDA)思想:给定训练例集,设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新鲜进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
则可得到最大化目标
类内散度矩阵
类间散度矩阵
则J可以表示为:
J也被称为Sb和Sw的“广义瑞利商”
由于J的分子和分母都是关于w的二次项,因此解与w的长度无关,仅与其方向有关 。令wTSww=1,则原问题等价于求w使得-wTSbw最小。由拉格朗日乘数法,等价于:
注意到Sb与μ0-μ1同向,则代入得
实际上可以对Sw进行奇异值分解,详见教材。
LDA可以推广到多任务之中,详见教材。
经典的拆分策略有三种:
一对一策略:举个例子,现在有A、B、C、D四个种类,要确定某个样本属于四类中的哪一类。那么我们可以事先训练好六个二分类的分类器——A/B、A/C、A/D、B/C、B/D、C/D。然后把要确定类别的样本分别放入这六个分类器。假设分类结果分别是A、A、A、B、D、C。可以知道六个分类器中有三个认为这个样本术语A,认为是B、C、D的各有一个。所以我们可以认为这个样本就是术语A类的。
一对多策略:举个例子,现在有A、B、C、D四个种类,要确定某个样本属于四类中的哪一类。那么我们可以事先训练好四个二分类的分类器——A/BCD、B/ACD、C/ABD、D/ABC,分类器输出的是一个函数值。然后把要确定类别的样本分别放入这四个分类器。假设四个分类器的结果分别是“属于A的概率是0.9”,“属于B的概率是0.8”、“属于C的概率是0.7”、“属于B的概率是0.6”。那我们可以认为这个样本是属于A。
多对多策略:每次将若干个类作为正类,若干个其他类作为反类。其中需要这种策略需要特殊的设计,不能随意取。常用的技术:纠错输出码。工作步骤分为:
类别不平衡,就是指分类任务中不同类别的训练样例数目差别很大的情况。
从线性分类器的角度来说,若
3.46
则预测为正例。
然而,正反例数目不同时,观测几率m+/m-,由于我们假设无偏采样,则观测几率就代表真实几率,于是若
3.47
则预测为正例。
但是原来的分类器基于3.46进行决策,所以需要再缩放操作。
3.48 再缩放操作
但是我们很难保证“训练集是真实样本总体的无偏采样”。现有技术有3种做法:
3.1 线性模型两个实例相减得到,以此消除了b。所以可以对训练集每个样本都减去第一个样本,然后对新的样本做线性回归,只需要用模型。
3.6 在当前维度线性不可分,可以使用适当的映射方法,使其在更高一维上可分,典型的方法有KLDA,可以很好的划分数据。
令码长为9,类别数为4,试给出海明距离意义下理论最优的EOOC二元码并证明之。
对于ECOC二元码,当码长为2n时,至少可以使2n个类别达到最优间隔,他们的海明距离为2(n−1)。比如长度为8时,可以的序列为
1 1 1 1 -1 -1 -1 -1
1 1 -1 -1 1 1 -1 -1
1 -1 1 -1 1 -1 1 -1
-1 -1 -1 -1 1 1 1 1
-1 -1 1 1 -1 -1 1 1
-1 1 -1 1 -1 1 -1 1
其中4,5,6行是对1,2,3行的取反。若分类数为4,一共可能的分类器共有24−2种(排除了全1和全0),在码长为88的最优分类器后添加一列没有出现过的分类器,就是码长为99的最优分类器。
参考文献
链接:https://www.jianshu.com/p/055a546b55df