1.基本形式
,向量形式
(1)线性模型一般具有解释性,如: 从式子中可以看到根蒂是最重要的
表示每个属性对应的权重,值在0~1之间,表示的是第i个属性占最后结果的百分比,也可以理解为属性的重要性。
(2)许多强大的非线性模型,可在线性模型的基础上通过引入层级结构或高维特征而得
1.1 什么叫线性
线性函数 ≠ 线性回归方程 首先看这三个函数,读者大致判断一下这三个函数,哪些是线性回归,哪些是非线性回归?
答案是:方程一和方程二为线性回归,方程三为非线性回归。线性回归中线性的含义: 因变量y对于未知的回归系数(β0,β1 .... βk) 是线性的。
这个问题弄错的原因是,大家把“线性回归方程”等价于“线性函数”。如方程二,出现了二次方,它是非线性函数,但是根据线性回归中对线性的定义,它是线性回归方程!
2.线性回归
2.1 离散属性连续化
- 对离散属性,若属性值之间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性身高的取值,“高”“矮”可和转化为{1.0 , 0}。
- 若属性值之间不存在序的关系,例如属性“瓜类”的取值为西瓜,南瓜,冬瓜,则可转化为(0,0,1),(0,1,0),(1,0,0)。
2.2 凸函数
2.3 最小二乘法(least square method)
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
求解w和b的过程,就是让式子 , 下面来分别对w和b进行求导
下面为w和b的最优解推导:
2.3 多元线性回归
但是上面的公式推导是基于x的维度d=1的情况,在更一般的情况下d并不等于1,也就是我们一开始讨论的y^=wTx+b,此时线性回归有个特殊的名字,叫做多元线性回归。为了方便讨论,我们记,那么,损失函数为:
然后下面对w进行求导:
令式子=0,可得:
!!!!!!!!!满秩矩阵!!!!!!!!!!!
2.4 梯度下降法
2.5 牛顿法
3.对数线性回归
把线性回归模型简写为: ,当我们希望线性模型的预测值逼近真实标记y,这样就是线性模型。那可否令模型的预测值毕竟y的衍生物呢? 作者的这一描述实在太妙了!y的衍生物,通俗易懂! 假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型: , 也就是让模型 去逼近 lny,而不是y。也可以对 做一下变换就变成了 ,也可以理解为让 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。如图:
假如说β1等于0.04,x每增加1,那么y的值就会是增加之前的百分之4,增加了所谓弹性。
3.1广义线性模型
这样的模型叫做广义线性模型,其中g函数称为联系函数,对数线性回归是广义模型在g()=ln()时的特例
3.2 多元线性回归
3.3 非线性
4.对数几率回归(逻辑回归)
对数几率回归呢? 让 去逼近什么呢?那就是让 去逼近一个y的对数几率函数,也就是这个形式: ,其中 就是几率(odds),反映了x为正样本的可能性, 对几率再取对数就得到对数几率。通常我们不是写成这个形式的,稍微做一下转换,就得到我们熟悉的逻辑回归方程: 。其实就相当于线性模型的输出加了一个激活函数,这个激活函数就是大名鼎鼎的sigmoid函数,其实也叫做logistic function。所以Logistic Regression中的Logistic是出自 Logistic function,而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到(0,1),恰恰符合我们的概率取值。
这里西瓜书没有解释为什么不用均方误差来作为损失函数。
这里再同步一下AndrewNg的讲解
如果y=1,但是我们的 ,就是说实际是恶性肿瘤,但我预测恶性的概率为0,就会得到巨大的惩罚。我们惊讶地发现逻辑回归和线性回归更新参数的规则竟然是一样的,但背后的函数已经完全不一样。
4.1 逻辑回归推导
然后来看一下如何确定 w 和 b,将 y 视为后延概率估计,则式子可以写成:
线性判别分析(Linear Discriminant Analysis, LDA)
LDA的思想非常朴素:给定训练集,设法找到一个投影,这个投影可将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离;对新样本分类时,将新样本投影到此直线上,再依据投影点的位置来确定类别。假设一个二分类问题,LDA投影示意图:
5.多分类学习
西瓜书课后习题
1.试分析在什么情况下,在以下式子中不比考虑偏置项b
线性模型,两个实例相减得到,以此消除了b。所以可以对训练集每个样本都减去第一个样本,然后对新的样本做线性回归,只需要用模型。
2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。