[分类] Linear Discriminant Analysis

LDA是一个分类模型,可以处理多category的问题。
模型是: (*),即在知道x值的情况下,属于k类的可能性,选择最大的作为点x的类。其中。这个模型基于的统计理念非常常见,就是先验概率和后验概率用全概率公式和Bayes定理互相推导。
(*) 中对所有k来说都一样,所以选择的重点在于。

如果我们假设是一个multivariate Gaussian,且对于所有k类,方差相同,则,
如果,那就把点分到class 1

edx-Machine Learning-Wk3

如果
的话,图中的椭圆会变成圆形。

QDA(Quadratic Discriminant functions) :不同的class k,不,所以,所以是一个quadratics的式子,所以决策边界为quadratic

edx-Machine Learning-Wk3

确定了模型之后,进行参数估计,有最大似然估计可得

  • 总共需要估计(K-1)*(p+1)个参数

这个模型跟适用于large and diverse set。

Discriminant Analysis最核心的点是假定k类有k个不同的distribution,然后计算在已知k的情况下,对于待分类点x计算条件概率(Bayes Rule),然后选出条件概率最高的那一个类。

所以这个模型有很多的变通之处,例如,我们一定要假定正态分布吗?不一定,之所以倾向多维正态的原因是针对线性/Quadratic的决策边界,正态的结果会更稳定,但其实是可以选择别的分布假设的。

  1. 优化
  • Regularized Discriminant Analysis:
    is the pooled covariance matrix as used in LDA, 这样的话通过引入来实现LDA和QDA的转化,由CV来决定

你可能感兴趣的:([分类] Linear Discriminant Analysis)