EM和PCA和LDA和Ensemble Learning

EM

  • 琴生不等式Jensen Inequality

参考下图黑洞传送门
EM和PCA和LDA和Ensemble Learning_第1张图片

  • MLE最大似然估计
  1. 一个数据集出现了,我们就最大化这个数据集的似然概率。
  2. 数据集中每个点都是独立出现的,因此可以概率连乘。
  3. 求得使得似然概率最大(当前数据集出现的估计概率)的参数。
  • MLE的对数累加形式
  1. log是凹函数,因此
    l o g ( E ( x ) ) ≥ E ( l o g ( x ) ) log(E(x)) \ge E(log(x)) log(E(x))E(log(x))
    1. 简便记忆法,log(累加)>=累加log
    2. 等号成立: 随机变量是常数
      EM和PCA和LDA和Ensemble Learning_第2张图片

EM和PCA和LDA和Ensemble Learning_第3张图片

  • 最大化下界

  • EM 步骤
    EM和PCA和LDA和Ensemble Learning_第4张图片

无监督的降维:PCA

  • 数据矩阵中心化
  • 投影到例如某几个轴上, w 1 , w 2 , w 3 . . . . . . . w i w_1,w_2, w_3.......w_i w1,w2,w3.......wi
  1. 如何投影?
    w k T x i w_k^Tx_i wkTxi
  • 使得方差 最大化: 一般信息方差大于噪声!
    1 n ∑ i = 1 N ∣ ∣ w i T x i ∣ ∣ 2 \frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2 n1i=1NwiTxi2
    m a x 1 n ∑ i = 1 N w k T x i x i T w k max \quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k maxn1i=1NwkTxixiTwk
    假设 X = [ x 1 x 2 x 3 . . . . . x n ] X=[x_1 \quad x_2 \quad x_3.....x_n] X=[x1x2x3.....xn],其中 x i x_i xi M × 1 M \times 1 M×1维数据向量
    m a x 1 n w k T X X T w k s . t . ∣ ∣ w k ∣ ∣ = 1 max \quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1 maxn1wkTXXTwks.t.wk=1
    对称矩阵,必定半正定,上式存在最大值
    reference
    EM和PCA和LDA和Ensemble Learning_第5张图片

拉格朗日来了
m a x w k T X X T w k s . t . ∣ ∣ w k ∣ ∣ = 1 max \quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1 maxwkTXXTwks.t.wk=1
==>
L ( w k ) = w k T X X T w k + λ ( 1 − w k T w k ) L (w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k) L(wk)=wkTXXTwk+λ(1wkTwk)
求导=0
∂ L ( w k ) ∂ w k = 2 X X T w k − 2 λ w k = 0 \frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0 wkL(wk)=2XXTwk2λwk=0
∂ 2 L ( w k ) ∂ w k 2 = 2 X T X − 2 λ ≤ 0 \frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0 wk22L(wk)=2XTX2λ0
EM和PCA和LDA和Ensemble Learning_第6张图片

发现:
X X T w k = λ w k XX^Tw_k= \lambda w_k XXTwk=λwk
结论:
特征值最大的轴上投影最佳

有监督的降维:LDA

  1. 投影后,不同类之间,类中心相互离得越远越好。Between Class Seaparability
  2. 投影后,类内方差越小越好,所有的方差之和越小越好. Within Variance
  3. 两类的LDA:
    min ⁡   J ( w ) = min ⁡ ( m 2 − m 1 ) 2 s 1 2 + s 2 2 \min \space J(w) = \min \frac {(m_2-m_1)^2}{s_1^2+s_2^2} min J(w)=mins1+s22(m2m1)2
    EM和PCA和LDA和Ensemble Learning_第7张图片

Ensemble Learning

  • RF随机森林:Boostrapping自助法/bagging
  1. 分类:投票 / 回归:平均
  2. 有放回地抽样样本,当做森林里某颗树的数据集
  3. 对这颗树,每次随机抽取d个特征作为特征集合,按照决策树增益标准分支。
  4. 自由生长,不要停止或者限制
  5. 随机森林创造者本人的主页
  6. 误差与树之间的correlation有关,大的correlation导致大的误差
  7. 个体树效果越好的话,整体误差会低,整体strength大
  8. 并行
    EM和PCA和LDA和Ensemble Learning_第8张图片
    EM和PCA和LDA和Ensemble Learning_第9张图片
  • AdaBoost
  1. 串行 boosting
  2. 代价函数是指数函数.
    L i = exp ⁡ ( − y i H ( x ) ) L_i= \exp(-y_iH(x)) Li=exp(yiH(x))
  3. 子分类器的权重由错误率得出
  4. 加大错误分类的权重,减小分对的样本权重

EM和PCA和LDA和Ensemble Learning_第10张图片

图的reference

  • Dropout
  1. 一般见于神经网络,防止过拟合
  2. 机制只工作在训练中,前向传播和后向传播中, p表示正常运作的概率,通过多重伯努利分布选择。
  3. “集成”学习
  4. Dropout论文
    EM和PCA和LDA和Ensemble Learning_第11张图片

你可能感兴趣的:(机器学习,pca降维,机器学习)