ESL第四章 分类的线性方法 指示矩阵线性回归/LDA和线性回归区别联系/QDA/RDA/低秩LDA与PCA&线性回归联系/IRLS/Wald和Rao score检验/L1逻辑回归、感知机/SVM

目录

  • 4.2 指示矩阵(Indicator Matrix)线性回归
  • 4.3 线性判别分析
      • 4.3.1 正则化判别分析Regularized Discriminant Analysis(RDA)
      • 4.3.2 LDA计算
      • 4.3.3 低秩LDA
  • 4.4 逻辑回归
      • 4.4.2 例子:南非心脏病
      • 4.4.3 二次拟合和推断
      • 4.4.4 L1正则化逻辑回归
      • 4.4.5 逻辑回归orLDA?
  • 4.5 分离超平面
      • 4.5.1 感知机
      • 4.5.2 最优分离超平面

4.2 指示矩阵(Indicator Matrix)线性回归

  • P104 用回归做K分类, Y ∈ R N × K \bm Y \in \mathbb R^{N\times K} YRN×K,其中每一行只有一个位置为1. 可以证明如果有偏置项,对任意输入 x x x,这 K K K个值求和为1,不过可能会出现负数
  • P104 对多分类用mse进行优化,给出了另一个视角。测试时用最大的indicator指示
  • P105 线性回归处理多分类把某些类直接盖掉,这是Linear Regression的问题(PRML第四章中给出了线性回归的另一个问题,就是把分的很正确的点又拉回来)。不严格的规则是,K分类可能需要引入K-1次的高阶项(这里应该是只讨论大致线性可分)

4.3 线性判别分析

  • P108 从类后验分布的出发点开始推导LDA(好像之前没见过这么起手的,我感觉这个应该叫贝叶斯分类器)
  • P110 二类中,LDA和线性回归的判别界面法向是一样的。而且这和类别编码无关。但当二类样本数不同时,决策的准则不同(习题4.2,我没做。。)PRML第四章P190也提到了
  • P110 当两类方差不等时,得到平方判别函数quadratic discriminant functions(QDA),这不是分类面是二次曲线
  • P111 LDA和RDA的参数量

4.3.1 正则化判别分析Regularized Discriminant Analysis(RDA)

  • P112 LDA和QDA两者方差的权衡。类似Ridge Regression

4.3.2 LDA计算

  • P113 LDA的一种求解方式,先对样本进行类内协方差有关的变换( X ∗ = D − 1 / 2 U T X X^*=\bm D^{-1/2}\bm U^TX X=D1/2UTX),然后往最近的类中心(也经过变换)的算距离,找最近的, π k \pi_k πk是修正项

4.3.3 低秩LDA

  • P114 K分类问题中,大于K维的空间是冗余的,K-1维就够了(K个点确定K-1维超平面)
  • P114 想继续把K分类降低到K-1维以下。方法是先对所有样本用类内方差进行变换(类似一种白化,但感觉又不是),再把类中心当作样本进行PCA降维。Fisher一开始LDA不是这么解释的,Fisher没有引入高斯分布,而是寻找 Z = a T X Z=a^T X Z=aTX使类间方差相比于类内方差最大。习题4.1说明了两者解一样。(所以低秩的高斯分布的贝叶斯分类器和LDA是等价的吗)
  • P116 图4.9 展示了为什么要考虑类内方差
  • P116 给出了另一套make sense的LDA解释。1)假定相同协方差矩阵的条件下,分类就是根据方差变换后找最近的类中心(类中心也是变换后的,而且 π k \pi_k πk是修正项);2)只计算到类中心的距离,所以可以扔掉不必要的子空间;3)子空间又可以压缩出最优子空间,得到和Fisher LDA一样的解
  • P117 高斯分类器(混合高斯)在方差相等,均值约束为低秩的条件下,用最大似然优化,得到低秩LDA
  • P119 如果先用多分类的线性回归方法拟合,得到 Y ^ \hat \bm Y Y^. 用 Y ^ \hat \bm Y Y^进行LDA和用原空间LDA一样

4.4 逻辑回归

  • P121 IRLS是一个带权最小二乘的解析解
  • P121 对于多分类,IRLS算法阻碍了优化的简化,可以使用坐标下降法优化

4.4.2 例子:南非心脏病

  • P122 逻辑回归参数Z-score(参数除以各自标准差),以及参数的显著性检验Wald test
  • P122 自变量存在相关性时,对于系数参数的解释,一定要小心。可能本来有个变量独立拟合挺显著的,也正相关,但是由于两个变量的存在,导致该变量不显著,甚至为负相关。。
  • P124 逻辑回归选特征子集,用后向方法,每次剔除一个,然后进行偏差分析analysis of deviance

4.4.3 二次拟合和推断

  • P125 IRLS可看成带权最小二乘,从而有一些性质,如带权残差服从卡方分布、中心极限定理表明 β ^ \hat \beta β^趋于高斯分布等……(这一波没咋看懂,理解的不好)
  • P125 Rao score test检验是否引入一项,Wald test检验是否剔除一项。这两者不需要迭代和重新拟合加权最小二乘

4.4.4 L1正则化逻辑回归

  • P125 目标是凸的。可以通过重复迭代求解带权Lasso问题
  • P126 很难用LAR之类的方法,因为Path是分段光滑(非线性)
  • P126 关于求解:可以用凸优化的predictor-corrector方法确定 λ \lambda λ对应在哪个非零active set发生改变的位置;也可以用坐标下降方法进行优化

4.4.5 逻辑回归orLDA?

  • P127 LDA和逻辑回归的 log ⁡ P ( G = k ∣ X = x ) P ( G = K ∣ X = x ) \log \frac{P(G=k|X=x)}{P(G=K|X=x)} logP(G=KX=x)P(G=kX=x)形式都是 X X X的线性函数,区别在于系数估计的方式不同。LDA是生成模型,逻辑回归是判别模型。用的是不同的极大似然
  • P128 LDA显示建模边缘分布 P ( X ) P(X) P(X),可以得到更多参数信息,所以方差更低。如果真实数据 f k ( x ) f_k(x) fk(x)就是高斯分布,则在只是用条件概率进行估计时,需要再有30%的数据才能达到和LDA一样的效果
  • P128 LDA对远离决策边界的点,数据高斯分布的方差项会受到影响。而逻辑回归不会,会给这些点很低的权重
  • P128 实践中,LDA和逻辑回归效果差不多,即使有些特征是离散的,不符合高斯分布

4.5 分离超平面

4.5.1 感知机

  • P131 线性可分时,感知机可能收敛极慢。二类gap越小,收敛时间越长。(邱锡鹏蒲公英书有关于感知机的更多讨论,例如参数平均感知机)

4.5.2 最优分离超平面

  • P134 如果数据真的是类高斯分布,那LDA就是最优的。SVM会过分关注类别边界数据的噪声
  • SVM和逻辑回归的解有一个相似性:IRLS中,逻辑回归系数参数通过加权最小二乘来拟合迭代,加权中,离判别界面近的点权重更大。这点和SVM只关注支持向量很像

参考文献:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, Second Edition
[2] ESL CN

你可能感兴趣的:(机器学习,#,读书笔记,ESL,数学,机器学习,逻辑回归,数学)