Task2 吃瓜教程——西瓜书第三章 线性模型

一 、基本形式

定义:线性模型(linear model)是通过属性的线性组合来进行预测的函数模型。

给定由d个属性组成的示例\boldsymbol{x} = \{x_1; x_2;...;x_d\},

  • 函数形式 f(\boldsymbol{x}) = w_1x_1+w_2x_2+...+w_dx_d + b
  • 向量形式f(\boldsymbol{x}) = \boldsymbol{w}^T\boldsymbol{x}+b 其中\boldsymbol{w} =\{w_1;w_2;...;w_d\}

线性模型学习的过程即确定\boldsymbol{w}b的过程。

二 、线性回归

给定数据集D=\{(\boldsymbol{x_1},y1),(\boldsymbol{x_2},y2),...,(\boldsymbol{x_m},y_m)\}, 其中\boldsymbol{x_i} = (x_{i1};x_{i2};...;x_{id})(列向量),y_i\epsilon \mathbb{R}

试图学得 \boldsymbol{w}b以尽可能准确预测输出的过程,叫作线性回归。

示例中属性是d维向量, 共有m个样本。

2.1 一元线性回归(d=1)

问题:数据集简写为D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}, 试图学得

f(x_i) = wx_i+b使得f(x_i)\simeq y_i  (1)

损失函数——均方误差:

(w^*,b^*)=\underset{w,b}{argmin}\sum_{i=1}^{m}(f(x_i) - y_i)^2=\underset{w,b}{argmin}\sum_{i=1}^{m}(y_i - wx_i - b)^2(2)

E_(w,b) = \sum_{i=1}^m(y_i-wx_i-b)^2最小二乘法参数估计:

分别对w,b求导得:

\frac{\partial E_{(w,b)}}{\partial w} = 2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i)(3)

\frac{\partial E_{(w,b)}}{\partial b} = 2(mb-\sum_{i=1}^m(y_i-wx_i))(4)

因为在偏导为0时取得极值,因此令(3)(4)为0,可解得:

w=\frac{\sum_{i=1}^my_i(x_i-\bar{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}其中\bar{x}=\frac{1}{m}\sum_{i=1}^mx_i

b=\frac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)

2.2 多元线性回归(d>1)

多元线性回归需要转换为矩阵的运算。而b无法直接在矩阵中表示。

可以将特征向量\boldsymbol{x_i}末尾追加元素1变为\widehat{\boldsymbol{x_i}} =\{\boldsymbol{x_i};1\},将d维特征向量转为d+1维,则b可以追加到\boldsymbol{w}末尾变为\widehat{\boldsymbol{w}} = \{\boldsymbol{w};b\}

类似式(2),有

\widehat{\boldsymbol{w}}^*=\underset{\widehat{\boldsymbol{w}}}{argmin}(\boldsymbol{y}-\boldsymbol{X}\widehat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\widehat{\boldsymbol{w}})

E_{\widehat{\boldsymbol{w}}}=(\boldsymbol{y}-\boldsymbol{X}\widehat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\widehat{\boldsymbol{w}}),对\widehat{\boldsymbol{w}}求导得:

\frac{\partial E_{\widehat{\boldsymbol{w}}}}{\partial \widehat{\boldsymbol{w}}}=2\boldsymbol{X}^T(\boldsymbol{X}\widehat{\boldsymbol{w}}-\boldsymbol{y})(5)

令(5)等于零,可解得\widehat{\boldsymbol{w}}^* = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

最终学得f(\widehat{\boldsymbol{x_i}}) = \widehat{\boldsymbol{x_i}}^T(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

线性回归模型的一般形式y = \boldsymbol{w}^T\boldsymbol{x}+b

也可令线性模型逼近y的衍生物,如lny = \boldsymbol{w}^T\boldsymbol{x}+b =>

广义线性模型

y = g^{-1}(\boldsymbol{w}^T\boldsymbol{x}+b) (6)

g为单调可逆函数,此时成为联系函数

三、对数几率回归

如何做二分类预测:阶跃函数y = \frac{1}{1+e^{-z}}

Task2 吃瓜教程——西瓜书第三章 线性模型_第1张图片

带入线性模型得到:y = \frac{1}{1+e^{-(w^Tx+b)}}(对数几率回归,用线性模型去逼近真实标记的对数几率ln\frac{y}{1-y})

如何确定w和b -> 极大似然法

四、线性判别分析(Linear Discriminant Analysis, 简称LDA)

给定训练集,设法将样例投影到一条直线上,使得同样样例的投影点尽可能接近,异样样例投影点尽可能远离。在对新的样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来却低你那个新样本的类别。

五、多分类学习

多分类拆分策略:一对一,一对其余,多对多

六、类别不平衡问题(class-imbalance)

如果不同类别的驯良样例数差别很大=>再缩放

\frac{y'}{1-{y}'} = \frac{y}{1-y}\times \frac{m^-}{m^+}

你可能感兴趣的:(机器学习,人工智能,算法,机器学习)