【西瓜书+南瓜书】学习笔记2

3.1基本形式

给定属性示例 x = ( x 1 ; x 2 ; . . . x d ) x=(x_{1};x_{2};. ..x_{d}) x=(x1;x2;...xd)其中 x i x_{i} xi x x x在第 i i i个属
性上的取值,线性模型(linear model) 试图学得一个通过属性的线性组合来进行
预测的函数,即 f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b f(x)=w1x1+w2x2+...+wdxd+b w w w b b b学习可得。

3.2线性回归

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})\} D={(x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . x i d ) x_{i}=(x_{i1};x_{i2};. ..x_{id}) xi=(xi1;xi2;...xid) y i ∈ R y_{i}\in R yiR,“线性回归” (linear regression) 试图学得一个线性模型以尽可能准确地预测实值输出标记。
一元线性回归
数据集D只有一个属性,其线性回归可写为 f ( x ) = w x i + b f(x)=w_{}x_{i}+b f(x)=wxi+b

  • 基于最小二乘法的参数估计
    基于均方误差最小化来进行模型求解的方法
    ( w ∗ , b ∗ ) = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) ) 2 = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{align*} (w^{*},b^{*})=\arg\min\limits_{(w,b)}\sum_{i=1}^m(f(x_{i})-y_{i)})^{2} \\ =\arg\min\limits_{(w,b)}\sum_{i=1}^m(y_{i}-wx_{i}-b)^{2}\\ \end{align*} (w,b)=arg(w,b)mini=1m(f(xi)yi))2=arg(w,b)mini=1m(yiwxib)2
    求解 w w w b b b使得 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum\limits_{i=1}^m (y_{i}-wx_{i}-b)^{2} E(w,b)=i=1m(yiwxib)2最小化,对 E ( w , b ) E_{(w,b)} E(w,b)求导得到
    ∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 2 ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 2 ( y i − w x i ) ) \begin{align*} \frac{\partial E_{(w,b)}}{\partial w}=2(w\sum\limits_{i=1}^mx_i^2-\sum\limits_{i=1}^2(y_{i}-b)x_{i})\\ \frac{\partial E_{(w,b)}}{\partial b}=2(mb-\sum\limits_{i=1}^2(y_{i}-wx_{i}))\\ \end{align*} wE(w,b)=2(wi=1mxi2i=12(yib)xi)bE(w,b)=2(mbi=12(yiwxi))
    令上面两条式子为0可得到 w w w b b b最优解的闭式解

w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum\limits_{i=1}^my_{i}(x_{i}-\overline{x})}{\sum\limits_{i=1}^mx_i^2-\frac{1}{m}(\sum\limits_{i=1}^mx_{i})^{2}} w=i=1mxi2m1(i=1mxi)2i=1myi(xix)
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum\limits_{i=1}^m(y_{i}-wx_{i}) b=m1i=1m(yiwxi)
其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum\limits_{i=1}^mx_{i} x=m1i=1mxi

多元线性回归
数据集D有 d d d个属性,其线性回归可写为 f ( x i ) = w T x i + b f(x_{i})=w^{T}x_{i}+b f(xi)=wTxi+b

  • 基于最小二乘法的参数估计
    w w w b b b吸收入向量形式 w ^ = ( w , b ) \widehat{w}=(w,b) w =(w,b),维度为d+1,则属性的矩阵相应增加一列,即
    【西瓜书+南瓜书】学习笔记2_第1张图片
    标签的向量可以表示为 y = ( y 1 ; y 2 ; . . . y m ) y=(y_{1};y_{2};. ..y_{m}) y=(y1;y2;...ym),使得 arg ⁡ min ⁡ ( w , b ) ( y − X w ^ ) T ( y − X w ^ ) \arg\min\limits_{(w,b)}(y-X\widehat{w})^{T}(y-X\widehat{w}) arg(w,b)min(yXw )T(yXw ),对 w ^ \widehat{w} w 求导得:
    在这里插入图片描述
    X T X X^{T}X XTX为满秩矩阵或正定矩阵时,令上式为0可得
    w ^ ∗ ( X T X ) − 1 X T y {\widehat{w}}^{*}(X^{T}X)^{-1}X^{T}y w (XTX)1XTy
    X T X X^{T}X XTX不是满秩矩阵时有多个解,选择哪一个由归纳偏好决定,常见的做法是引入正则化项。

3.3对数几率回归

在线性回归模型下套用一个映射函数实现分类功能
【西瓜书+南瓜书】学习笔记2_第2张图片
上面使用得是对数几率函数,需要注意的是映射函数是单调可微的。

-使用极大似然函数估计 w w w b b b

3.4线性判别分析

它的核心思想是同类样本的投影点尽可能的近,异类样本的投影点尽可能远。
【西瓜书+南瓜书】学习笔记2_第3张图片

你可能感兴趣的:(学习,机器学习,回归)