机器学习 | 西瓜书学习笔记 ch03:线性模型

3.1 基本形式

  • f ( x ) = w T x + b f(x) = w^Tx+b f(x)=wTx+b

    其中
    w = ( w 1 ; w 2 ; . . . ; w d ) w = (w_1;w_2;...;w_d) w=(w1;w2;...;wd)

  • 线性模型的缺陷:XOR(异或问题)解决不了,无法用一条线进行划分.

  • 补充

    • 梯度下降法

      • f ( x + Δ x ) = f ( x ) + Δ x T ∇ f ( x ) f(x+\Delta x)= f(x)+\Delta x^T\nabla f(x) f(x+Δx)=f(x)+ΔxTf(x)

        其中
        Δ x T ∇ f ( x ) < 0 \Delta x^T\nabla f(x)<0 ΔxTf(x)<0
        表示方向相反

      • Δ x = − γ ∇ f ( x ) \Delta x = -\gamma \nabla f(x) Δx=γf(x)

        用查找法(二分法、黄金分割法或者其他算法)确定下面的值

      γ \gamma γ

3.2 线性回归

  • 最小二乘法(least square method)
    ( w ∗ , b ∗ ) = a r g   m i n w , b ∑ i = 1 m ( f ( x i ) − y i ) 2 = a r g   m i n w , b ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*) = arg\ min_{w,b}\sum_{i=1}^{m}(f(x_i)-y_i)^2 = arg\ min_{w,b}\sum_{i=1}^{m}(y_i-wx_i-b)^2 (w,b)=arg minw,bi=1m(f(xi)yi)2=arg minw,bi=1m(yiwxib)2

  • 闭式(closed-form)解

  • 满秩讨论

    • X T X 是 满 秩 矩 阵 或 正 定 矩 阵 , 则 X^TX 是满秩矩阵或正定矩阵,则 XTX

      w ∗ ^ = ( X T X ) − 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w^=(XTX)1XTy

      其中
      其 中 ( X T X ) − 1 是 X T X 的 逆 矩 阵 , 线 性 回 归 模 型 为 其中(X^TX)^{-1}是X^TX的逆矩阵,线性回归模型为 (XTX)1XTX线

      f ( x i ^ ) = x i ^ T ( X T X ) − 1 X T y f(\hat{x_i}) = \hat{x_i}^T(X^TX)^{-1}X^Ty f(xi^)=xi^T(XTX)1XTy

      正则化(参6.4节,11.4节)
      X T X + ε I X^TX+\varepsilon I XTX+εI

  • 对数线性回归(log-linear regression)

    • ln ⁡ y = w T x + b \ln y=w^Tx+b lny=wTx+b

    • 试 图 让 e w T x + b 逼 近 y 试图让e^{w^Tx+b}逼近y ewTx+by

    • 广义线性模型
      y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b)
      g(·)是"联系函数"(link function),连续且充分光滑(单调可微函数)

3.3 对数几率回归

  • 单位阶跃函数(unit-step function):不连续,不能求梯度

  • 替代函数(surrogate function)

  • 对数几率函数(logistic function)

    • y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+ez1

    • 对数几率函数是一种 “Sigmoid 函数”

  • 极大似然法(maximum likelihood method)

    • l ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; w , b ) l(w,b) = \sum_{i=1}^{m}\ln p(y_i \mid x_i;w,b) l(w,b)=i=1mlnp(yixi;w,b)

      即令每个样本属于其真实标记的概率越大越好.

  • 对数几率回归,实际上是一种分类学习方法,而不是回归

3.4 线性判别分析(Fisher 判别分析)

  • LDA 的思想

    • 欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小
    • 欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大
  • 类内散度矩阵(within-class scatter matrix)

    • S w = ∑ 0 + ∑ 1 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T S_w=\sum {_0}+\sum {_1} = \sum_{x\in X_0}(x-\mu _0)(x-\mu _0)^T + \sum_{x\in X_1}(x-\mu _1)(x-\mu _1)^T Sw=0+1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T
  • 类间散度矩阵(between-class scatter matrix)

    • S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b = (\mu _0 - \mu _1)(\mu _0 - \mu _1)^T Sb=(μ0μ1)(μ0μ1)T
  • 补充

    • 拉格朗日乘子法(待填坑)
  • 矩阵 * 矩阵,秩向低的靠齐

3.5 多分类学习

  • OvO:一对一
  • OvR:一对其余
  • MvM:多对多
  • N 个类,秩 <= N-1,因为最后一个没有自由度
  • 两种策略比较
    • 一对一
      • 训练 N(N-1)/2 个分类器,存储开销和测试时间大
      • 训练只用两个类的样例,训练时间短
    • 一对其余
      • 训练 N 个分类器,存储开销和测试时间小
      • 训练用到全部训练样例,训练时间长
    • 预测性能取决于具体数据分布
  • 编码矩阵(coding matrix)

3.6 类别不平衡问题(class imbalance)

  • 类别不平衡

    • 不同类别训练样例数相差很大情况(正类为小类)
  • 再缩放

    • 欠采样(undersampling)
      • 取出一些反例,使正反例数目接近
    • 过采样(oversampling)
      • 增加一些正例,使正反例数目接近
    • 阈值移动(threshold-moving)

你可能感兴趣的:(#,机器学习,西瓜书学习笔记(导论))