从今天起,总结机器学习算法,先从最简单的,朴素的贝叶斯算法开始,为什么最近又开始总结这些机器学习算法那?原因很简单,这些算法很久之前都是推导过的,但是没有总结,很快就忘记了,复习也不好复习,面试一问算法题目还好,到了数学推导,就磕磕绊绊,然后被各种diss,任重而道远。
(1)条件概率:
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
(2)很显然可以得到:
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
(3)继续推导可以得到:
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
(4)全概率公式(这里只给公式,先前条件就不提了):
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^n P({B_i})P(A|{B_i}) P(A)=∑i=1nP(Bi)P(A∣Bi)
有了上面这几个公式,基本就可以满足要求了,下面,开始推导朴素的贝叶斯分类器,主要参考李航的《统计学习方法》中的过程。先,提出问题,现在给出一堆数据或者是训练集:
T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) T = {(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)} T=(x1,y1),(x2,y2),...,(xn,yn)
解释:x
表示特征(可能有多个特征),y
表示标签(可能是多个标签哦)。
朴素贝叶斯算法对条件概率分布做了条件独立性的假设,所以具体的条件独立性假设是:
公式1: P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) P({ X=x} | {Y=c_k}) = P({X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}}|{Y=c_k})=\prod _{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)=∏j=1nP(X(j)=x(j)∣Y=ck)
解释: c k c_k ck 表示,标签Y
,中的一个值, X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) {X^{(1)}=x^{(1)}, ..., X^{(n)}=x^{(n)}} X(1)=x(1),...,X(n)=x(n) 表示一组向量,可能有n
个特征,为什么连乘?因为假设相互独立。
公式2: P ( Y = c k ∣ X = x ) = P ( Y = c k ⋂ X = x ) P ( X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P(Y=c_k|X=x)=\frac{P(Y=c_k\bigcap X=x)}{P(X=x)}=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k} P( X=x| Y=c_k)P(Y=c_k)} P(Y=ck∣X=x)=P(X=x)P(Y=ck⋂X=x)=∑kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)P(Y=ck)
解释: P ( X = x ) P(X=x) P(X=x) 这个值要通过全概率公式来求,即 ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) \sum_{k} P( X=x| Y=c_k)P(Y=c_k) ∑kP(X=x∣Y=ck)P(Y=ck)
现在,把公式1带入公式2得:
公式3: P ( Y = c k ∣ X = x ) = P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) P(Y=c_k|X=x)= \frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)} P(Y=ck∣X=x)=∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)P(Y=ck)∏jP(X(j)=x(j)∣Y=ck)
其中 k = 1 , 2 , 3... , K k=1,2,3...,K k=1,2,3...,K
解释:现在就得出了朴素贝叶斯法分类的基本公式了。
朴素贝叶斯法分类器可表示为:
公式4: y = f ( x ) = a r g m a x c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y=f(x)=argmax _{c_k}\frac{P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k} P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k)} y=f(x)=argmaxck∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)P(Y=ck)∏jP(X(j)=x(j)∣Y=ck)
解释:这个公式的意思就是,在所有的标签中,选择一个最大的后验概率那个标签,作为本次分类的结果。很显然,在最大化后验概率的时,公式4中的分母是相同的,所以可以进一步化简得到:
公式5: y = f ( x ) = a r g m a x c k P ( Y = c k ) ∏ j P ( X ( j ) = x ( j ) ∣ Y = c k ) y=f(x)=argmax _{c_k}P(Y=c_k) \prod _{j} P(X^{(j)}=x^{(j)}|Y=c_k) y=f(x)=argmaxckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)
朴素贝叶斯分类算法,监督学习算法,而且是生成模型,优缺点主要包括(主要参考其他博文,已经给出链接):
文本分类、欺诈检测、垃圾邮件分类中使用较多。
声明: 总结学习,有问题可以批评指正,大神可以略过哦。
引用参考:
[1]:《统计学习方法》李航著
[2]:blog.csdn.net/zrh_CSDN/article/details/81007851