【统计学习方法读书笔记】(四)朴素贝叶斯法

终于到了贝叶斯估计这章了,贝叶斯估计在我心中一直是很重要的地位,不过发现书中只用了不到10页介绍这一章,深度内容后,发现贝叶斯估计的基础公式确实不多,但是由于正态分布在生活中的普遍性,贝叶斯估计才应用的非常多吧!
默认输入变量用 X X X表示,输出变量用 Y Y Y表示
概率公式描述:
P ( X = x ) P(X=x) P(X=x):表示当 X = x X=x X=x时的概率
P ( X = x ∣ Y = c k ) P(X=x|Y=c_k) P(X=xY=ck):表示当 Y = c k Y=c_k Y=ck时, X = x X=x X=x的概率
贝叶斯法则: P ( Y i ∣ X ) = P ( X ∣ Y i ) P ( Y i ) ∑ j P ( X ∣ Y j ) P ( Y j ) P(Y_i|X)=\frac{P(X|Y_i)P(Y_i)}{\sum_j{P(X|Y_j)P(Y_j)}} P(YiX)=jP(XYj)P(Yj)P(XYi)P(Yi)

1、什么是先验概率、后验概率?

先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。
后验概率是信息理论的基本概念之一。在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。

比如你抛了10次硬币,7次正面朝上,接下来问你正面朝上的概率是多少,你说70%,此时这个就是先验概率,它是我们从“以往”的经验中积累得到的。

  • 条件独立性假设公式: P ( X = x ∣ Y = c k ) = ∏ j = 1 n P ( X ( i ) = x ( j ) ∣ Y = c k ) P(X=x|Y=c_k)=\prod_{j=1}^{n}{P(X^{(i)}=x^{(j)}|Y=c_k)} P(X=xY=ck)=j=1nP(X(i)=x(j)Y=ck)
    后验概率一般是在已知先验概率的前提下,通过贝叶斯定理计算得到的。
  • 后验概率计算公式: P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k{P(X=x|Y=c_k)P(Y=c_k)}} P(Y=ckX=x)=kP(X=xY=ck)P(Y=ck)P(X=xY=ck)P(Y=ck)
    把条件独立性假设公式代入有 P ( Y = c k ∣ X = x ) = P ( Y = c k ) ∏ j P ( X ( i ) = x ( j ) ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X ( i ) = x ( j ) ∣ Y = c k ) P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)}}{\sum_k{P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)}}} P(Y=ckX=x)=kP(Y=ck)jP(X(i)=x(j)Y=ck)P(Y=ck)jP(X(i)=x(j)Y=ck)
    可以得到朴素贝叶斯分类器公式为:
  • 朴素贝叶斯分类器: y = a r g m a x c k P ( Y = c k ) ∏ j P ( X ( i ) = x ( j ) ∣ Y = c k ) y=arg\underset{c_k}{max}P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)} y=argckmaxP(Y=ck)jP(X(i)=x(j)Y=ck)

2、什么是极大似然估计?

通俗解释:先估计一下模型的参数,然后计算得到实验结果的概率,概率越大,那么这个参数就可能越接近真实值。

  • 先验概率 P = ( Y = c k ) P=(Y=c_k) P=(Y=ck)的极大似然估计: P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , . . . , K P(Y=c_k)=\frac{\sum_{i=1}^{N}{I(y_i=c_k)}}{N}, k=1,2,...,K P(Y=ck)=Ni=1NI(yi=ck),k=1,2,...,K公式中的 I ( y i = c k ) I(y_i=c_k) I(yi=ck)可以理解为是能够通过已知的时间结果中计算的概率,稍后可以通过第3题知道究竟是什么。
  • 设第 j j j个特征可能取值的集合为 { a j 1 , a j 2 , . . . , a j S j } \{a_{j1},a_{j2},...,a_{jS_j}\} {aj1,aj2,...,ajSj},条件概率 P ( X j = a j l ∣ Y = c k ) P(X^{j}=a_{jl}|Y=c_k) P(Xj=ajlY=ck)的极大似然估计是: P ( X ( j ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}{I(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum_{i=1}^N{I(y_i=c_k)}} P(X(j)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck) j = 1 , 2 , . . . , n ; l = 1 , 2 , . . . , S j ; k = 1 , 2 , . . . . , K j=1,2,...,n; l=1,2,...,S_j; k=1,2,....,K j=1,2,...,n;l=1,2,...,Sj;k=1,2,....,K其中, x i ( j ) x_i^{(j)} xi(j)是第 i i i个样本的第 j j j个特征; a j l a_{jl} ajl是第 j j j个特征可能取得第 l l l个值; I I I为指示函数

3、试着由下表的训练数据学习一个朴素贝叶斯分类器并确定 x = ( 2 , S ) T x=(2,S)^T x=(2,S)T的类标记 y y y。表中 X ( 1 ) X^{(1)} X(1), X ( 2 ) X^{(2)} X(2)为特征,取值的集合分别为 A 1 = { 1 , 2 , 3 } A_1=\{1,2,3\} A1={1,2,3}, A 2 = { S , M , L } A_2=\{S,M,L\} A2={S,M,L} Y Y Y为类标记, Y ∈ C = { 1 , − 1 } Y\in{C=\{1,-1\}} YC={1,1}

1 2 3 4 5 6 7 8 9
X ( 1 ) X^{(1)} X(1) 1 1 1 2 2 2 3 3 3
X ( 2 ) X^{(2)} X(2) S S M L L S S M L
Y Y Y 1 1 1 -1 -1 1 -1 -1 -1

4、贝叶斯公式及贝叶斯估计算法?

5、贝叶斯估计与极大似然估计方法的比较?

你可能感兴趣的:(统计学习方法,人工智能,统计学习,概率,概率论)