周志华——机器学习 第三章笔记

第三章 线性模型

3.1 基本形式

给定由d个属性描述的示例 x = (x1,x2,...xd),其中xix在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

f(x) = w1x1+w2x2+...+wdxd+b

一般用向量形式写成

f(x) = wTx+b

其中 w = (w1,w2,...wd). wd学得之后,模型就得以确定。

  • 线性模型形式简单,易于建模,但却蕴含着机器学习中一些重要的基本思想

  • 许多功能更为强大的非线性模型可在线性模型的基础上引入层级结构或高维映射而得

  • w直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性。如若在西瓜问题中学得“f好瓜(x) = 0.2x色泽+0.5x根蒂+0.3x~敲声+1”,则意味着可以通过综合考虑色泽、根蒂,敲声来判断瓜好不好,其中根蒂最紧,而敲声比色泽更重要。

3.2 线性回归

考虑最简单的情形:输入属性的数目只有一个,忽略关于属性的下标,即D = {(xi,yi)}i=1m,其中xi∈R。

  • 若属性值之间存在“序”关系,则可通过连续化将其转化为连续值。

  • 二值属性"身高"的取值"高" "矮"可转化为 {1.0,0.0} ,

  • 三值属性"高度" 的取值"高" "中" "低"可转化为 {1,0.5,0.0};

  • 若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量,例如属性"瓜类"的取值"西

    瓜" "南瓜" "黄瓜"可转化为 (0,0,1) (0,1,0),(1,0,0).

    周志华——机器学习 第三章笔记_第1张图片

     

线性回归试图学得:f(xi) = wxi +b ,使得 f(xi) ≈yi.如何确定w和b?在于如何衡量f(x)与y之间的差别.

均方误差是回归任务中最常用的性能度量,要试图让均方误差最小化,即周志华——机器学习 第三章笔记_第2张图片

 

w*,b*表示w,b的解

  • 基于均方误差最小化来进行模型求解的方法称为最小二乘法,在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小

  • 周志华——机器学习 第三章笔记_第3张图片

     

  • 求解w和b使最小化的过程,成为线性回归模型的最小二乘“参数估计”。(未知数只有w和b)

     

  • 将E(w,b)(凸函数,如y=x2)分别对w和b求导,得到周志华——机器学习 第三章笔记_第4张图片

     

然后令(3.5),(3.6)为零可得到w和b的最优闭式解

更一般的情形:数据集D,样本由d个属性描述,此时我们试图学得:f(xi) = wTxi+b,使得f(xi) ≈yi,称为“多元线性回归”。

  • 类似的,可以利用最小二乘法wd进行估计,把w和b吸收进入向量形式把数据集D表示为一个m×(d+1)大小的矩阵X,其中每行对应一个示例,该行前d个元素对应于示例的d个属性值,最后一个元素恒置为1,

再把标记也写成向量形式 y = (y1,y2,...,ym),则有:

 

其他定义:对数线性回归;广义线性模型

3.3 对数几率回归

考虑二分类任务,其输出标记y∈{0,1},而线性回归模型产生的预测值z = wTx + b是实值,于是我们需要将实值z转换为*0/1值,最理想的是“单位阶跃函数”周志华——机器学习 第三章笔记_第5张图片

 

即若预测值z大于0就判为正例,小于0则判为反例,预测值为临界值0则可以任意判别;但由于单位阶跃函数不连续,所以用对数几率函数(对数几率函数是一种sigmoid函数)替代:周志华——机器学习 第三章笔记_第6张图片

 

 

  • 把对数几率函数作为g(.),带入3.15,得到

     

3.4 线性判别分析 LDA

  • LDA的思想:给定训练样集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

  • 周志华——机器学习 第三章笔记_第7张图片

     

3.5 多分类学习

  • 不失一般性,考虑N个类别C1,C2,...CN,多分类任务学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解

  • 先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器,在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果,这里的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成。

  • 经典的拆分策略有三种:“一对一OvO” , “一对其余OvR” ,“多对多MvM”

给定数据集OvO将这N个类别两两配对,从而产生N(N-1)/2个二分类任务(分类器)。

  • 例如,OvO将为区分类别Ci和Cj训练一个分类器,该分类器把D中的Ci类样例作为正例,Cj类样例作为反例。在测试阶段,新样本将提交给所有分类器,于是我们将得到N(N-1)/2个分类结果周志华——机器学习 第三章笔记_第8张图片

     

  • 最终结果可通过投票产生,即把被预测得最多的类别作为最终分类结果

  • OvR每次将一个类的样例作为正例,其他所有类的样例作为反例来训练N个分类器,在测试时,若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果。

  • 若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。

  • OvR训练N个分类器,OvO训练N(N-1)/2个分类器,因此OvR比OvO的存储开销和测试时间少,但在训练时,OvR的每个分类器均使用全部训练样例,而OvO的每个分类器只用到2个类的样例,因此类别很多时,OvO的训练时间开销通常比OVR更小。

你可能感兴趣的:(机器学习,人工智能)