反映了我们的经验知识,是一种简单的判决准则
只依靠先验概率并不靠谱,如:学校男女比例4:1,走过来的人是男生可能性大,但不能直接分类为男生
需要更多的特征信息进一步进行分类
在已知特征属于某个类的前提条件下的概率密度分布
两类的先验概率 p ( w 1 ) p(w_1) p(w1)和 p ( w 2 ) p(w_2) p(w2)
特征x的类条件概率密度: p ( x ∣ w 1 ) p(x|w_1) p(x∣w1)和 p ( x ∣ w 2 ) p(x|w_2) p(x∣w2)
当前待分类样本的观测值 x x x
后验概率:通过特征判断
p ( w 1 ∣ x ) > p ( w 2 ∣ x ) → w = w 1 p ( w 2 ∣ x ) > p ( w 1 ∣ x ) → w = w 2 \begin{gathered}p(w_1|\bold{x})>p(w_2|\bold{x})\rightarrow w=w_1\\p(w_2|\bold{x})>p(w_1|\bold{x})\rightarrow w=w_2\end{gathered} p(w1∣x)>p(w2∣x)→w=w1p(w2∣x)>p(w1∣x)→w=w2
P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) = P ( x ∣ w i ) P ( w i ) ∑ i P ( x ∣ w i ) P ( w i ) P o s t e r i o r = L i k e l i h o o d × P r i o r E v i d e n c e \begin{gathered}P(w_i|\bold{x})=\frac{P(\bold{x}|w_i)P(w_i)}{P(\bold{x})}=\frac{P(\bold{x}|w_i)P(w_i)}{\sum_iP(\bold{x}|w_i)P(w_i)}\\\mathit{Posterior}=\frac{\mathit{Likelihood}\times{Prior}}{\mathit{Evidence}}\end{gathered} P(wi∣x)=P(x)P(x∣wi)P(wi)=∑iP(x∣wi)P(wi)P(x∣wi)P(wi)Posterior=EvidenceLikelihood×Prior
Posterior: P ( w i ∣ x ) P(w_i|\bold{x}) P(wi∣x)观测到的具有 x \bold{x} x属性的事例或样本,该样本属于 w i w_i wi的概率。
Likelihood: P ( x ∣ w i ) P(\bold{x}|w_i) P(x∣wi)似然值,即第 w i w_i wi类样本, x \bold{x} x属性或特征的分布情况。
Prior: P ( w i ) P(w_i) P(wi)先验概率。
Evidence:归一化因子,保证类别后验概率之和为1。
最大后验准则
w ∗ = a r g m a x P ( w i ∣ x ) \mathit{w^*}=argmax{P(w_i|\bold{x})} w∗=argmaxP(wi∣x)
正比于贝叶斯公式的分子部分。
P ( w 1 ∣ x ) + P ( w 2 ∣ x ) = 1 P(w_1|x)+P(w_2|x)=1 P(w1∣x)+P(w2∣x)=1
P ( e r r o r ∣ x ) = { P ( w 1 ∣ x ) , w = w 2 P ( w 2 ∣ x ) , w = w 1 P(error|x)= \begin{cases}P(w_1|x),w=w_2\\P(w_2|x),w=w_1\end{cases} P(error∣x)={P(w1∣x),w=w2P(w2∣x),w=w1
P ( e r r o r ) = ∫ − ∞ ∞ P ( e r r o r , x ) d x = ∫ − ∞ ∞ P ( e r r o r ∣ x ) p ( x ) d x P(error)=\int_{-\infty}^{\infty}P(error,x)dx=\int_{-\infty}^{\infty}P(error|x)p(x)dx P(error)=∫−∞∞P(error,x)dx=∫−∞∞P(error∣x)p(x)dx
期望产生分类错误最小:
m i n P ( e r r o r ) = ∫ − ∞ ∞ m i n { P ( e r r o r ∣ x ) } p ( x ) d x minP(error)=\int_{-\infty}^{\infty}min\{P(error|x)\}p(x)dx minP(error)=∫−∞∞min{P(error∣x)}p(x)dx
可以通过后验概率规则实现,即谁的后验概率大就分给谁:
p ( w 1 ∣ x ) > p ( w 2 ∣ x ) → w = w 1 p ( w 2 ∣ x ) > p ( w 1 ∣ x ) → w = w 2 \begin{gathered}p(w_1|\bold{x})>p(w_2|\bold{x})\rightarrow w=w_1\\p(w_2|\bold{x})>p(w_1|\bold{x})\rightarrow w=w_2\end{gathered} p(w1∣x)>p(w2∣x)→w=w1p(w2∣x)>p(w1∣x)→w=w2
对癌症进行诊断,对一批人进行普查,规律如下:
每1000个人中有5个癌症病人
每100个正常人中有一个是试验呈阳性反应
每100个癌症病人中有95个人试验呈阳性反应
问:若甲呈阳性反应,甲是否正常?
分析:
第1告诉我们先验概率
2、3告诉我们似然概率:
设: w 1 → w_1\rightarrow w1→正常; w 2 → w_2\rightarrow w2→癌症
则 P ( w 1 ) = 0.995 ; P ( w 2 ) = 0.005 P(w_1)=0.995;P(w_2)=0.005 P(w1)=0.995;P(w2)=0.005(先验概率)
P ( x ∣ w 1 ) = 0.01 ; P ( x ∣ w 2 ) = 0.95 P(\bold{x}|w_1)=0.01;P(\bold{x}|w_2)=0.95 P(x∣w1)=0.01;P(x∣w2)=0.95(似然概率)
计算:
P ( x ∣ w 1 ) ⋅ P ( w 1 ) = 0.00995 P ( x ∣ w 2 ) ⋅ P ( w 2 ) = 0.00475 P ( w 2 ∣ x ) = P ( x ∣ w 2 ) ⋅ P ( w 2 ) P ( x ∣ w 1 ) ⋅ P ( w 1 ) + P ( x ∣ w 2 ) ⋅ P ( w 2 ) = 0.323 P ( w 1 ∣ x ) = 1 − P ( w 2 ∣ x ) = 1 − 0.323 = 0.677 P ( w 1 ∣ x ) > P ( w 2 ∣ x ) ⇔ P ( x ∣ w 1 ) ⋅ P ( w 1 ) > P ( x ∣ w 2 ) ⋅ P ( w 2 ) \begin{gathered}P(\bold{x}|w_1)\cdot P(w_1)=0.00995\\P(\bold{x}|w_2)\cdot P(w_2)=0.00475\\P(w_2|\bold{x})=\frac{P(\bold{x}|w_2)\cdot P(w_2)}{P(\bold{x}|w_1)\cdot P(w_1)+P(\bold{x}|w_2)\cdot P(w_2)}=0.323\\P(w_1|\bold{x})=1-P(w_2|\bold{x})=1-0.323=0.677\\P(w_1|\bold{x})>P(w_2|\bold{x})\Leftrightarrow P(\bold{x}|w_1)\cdot P(w_1)>P(\bold{x}|w_2)\cdot P(w_2)\end{gathered} P(x∣w1)⋅P(w1)=0.00995P(x∣w2)⋅P(w2)=0.00475P(w2∣x)=P(x∣w1)⋅P(w1)+P(x∣w2)⋅P(w2)P(x∣w2)⋅P(w2)=0.323P(w1∣x)=1−P(w2∣x)=1−0.323=0.677P(w1∣x)>P(w2∣x)⇔P(x∣w1)⋅P(w1)>P(x∣w2)⋅P(w2)
∴ \therefore ∴甲呈阳性;正常, x ∈ w 1 \bold{x}\in w_1 x∈w1
不符合逻辑,原因:先验不平衡,最小错误贝叶斯模型不是非常有效(先验统治分类结果)
提供了一种给定观察数据来评估模型参数的方法
核心:独立同分布假设(i.i.d)
工具:对数似然,无限制最优化,等式限制最优化
思路:假设样本为独立同分布采样
p ( x 1 , x 2 , . . . , x n ; θ ) = p ( x 1 ; θ ) p ( x 2 ; θ ) . . . p ( x 3 ; θ ) = ∏ i = 1 n p ( x i ; θ ) p(\bold{x_1,x_2,...,x_n};\theta)=p(\bold{x_1;\theta})p(\bold{x_2;\theta})...p(\bold{x_3;\theta})=\prod_{i=1}^{n}{p(\bold{x_i};\theta)} p(x1,x2,...,xn;θ)=p(x1;θ)p(x2;θ)...p(x3;θ)=∏i=1np(xi;θ)
log p ( x 1 , x 2 , . . . , x n ; θ ) = ∑ i = 1 n l o g p ( x i ; θ ) \log{p(\bold{x_1,x_2,...,x_n};\theta)}=\sum_{i=1}^{n}log{p(\bold{x_i};\theta)} logp(x1,x2,...,xn;θ)=∑i=1nlogp(xi;θ)
max p ( x 1 , x 2 , . . . , x n ; θ ) ⇔ min [ − log p ( x 1 , x 2 , . . . , x n ; θ ) ] \max{p(\bold{x_1,x_2,...,x_n};\theta)}\Leftrightarrow \min{[-\log{p(\bold{x_1,x_2,...,x_n};\theta)}]} maxp(x1,x2,...,xn;θ)⇔min[−logp(x1,x2,...,xn;θ)]
罐子里黑白球,数目不知,比例不知,每次拿出一个再放回去,100次重复记录中70次是白球,白球所占比例最有可能是多少。
x i ∈ x_i\in xi∈[白,黑] → [ 1 , 0 ] ; \rightarrow [1,0]; →[1,0]; 概率: [ p , 1 − p ] [p,1-p] [p,1−p]
每次取出球的概率: f ( x i ; p ) = p x i ( 1 − p ) 1 − x i f(x_i;p)=p^{x_i}(1-p)^{1-x_i} f(xi;p)=pxi(1−p)1−xi
f ( x 1 , x 2 , . . . x n ; p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p n 1 ( 1 − p ) n 0 f(x_1,x_2,...x_n;p)=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}=p^{n_1}(1-p)^{n_0} f(x1,x2,...xn;p)=∏i=1npxi(1−p)1−xi=pn1(1−p)n0
L = − log f ( x 1 , x 2 , . . . x n ; p ) = − n 1 log p − n 0 log ( 1 − p ) L=-\log{f(x_1,x_2,...x_n;p)}=-n_1\log p-n_0\log(1-p) L=−logf(x1,x2,...xn;p)=−n1logp−n0log(1−p)
令 ∂ L ∂ p = 0 ⇒ n 1 1 p − n 0 1 1 − p = 0 ⇒ p = n 1 n 0 + n 1 \frac{\partial{L}}{\partial{p}}=0\Rightarrow n_1\frac{1}{p}-n_0\frac{1}{1-p}=0\Rightarrow p=\frac{n_1}{n_0+n_1} ∂p∂L=0⇒n1p1−n01−p1=0⇒p=n0+n1n1
∵ n 1 = 70 , n 0 + n 1 = 100 \because n_1=70,n_0+n_1=100 ∵n1=70,n0+n1=100
∴ p = 70 \therefore p=70 ∴p=70%
∴ \therefore ∴癌症和球两个例题用频率可直接代替概率。
令 { w 1 , w 2 , . . . , w n } \{w_1,w_2,...,w_n\} {w1,w2,...,wn}表示一系列类别状态
令 { α 1 , α 2 , . . . , α n } \{\alpha_1,\alpha_2,...,\alpha_n\} {α1,α2,...,αn}表示一系列可能采取的行动(或决策)
令 λ ( α i ∣ w j ) \lambda(\alpha_i|w_j) λ(αi∣wj)表示当实际类别状态为 w j w_j wj时,采取 α i \alpha_i αi的行为会带来的风险。与行动 α i \alpha_i αi相关联的损失
R ( α i ∣ x ) = ∑ j λ ( α i ∣ w j ) P ( w j ∣ x ) R(\alpha_i|\bold{x})=\sum_j{\lambda(\alpha_i|w_j)P(w_j|\bold{x})} R(αi∣x)=j∑λ(αi∣wj)P(wj∣x)
在给定样本 x \bold{x} x的条件下,计算各类后验概率 P ( w j ∣ x ) P(w_j|\bold{x}) P(wj∣x)
求各种判决的条件平均风险 R ( α i ∣ x ) = ∑ λ ( α i ∣ w j ) P ( w j ∣ x ) R(\alpha_i|\bold{x})=\sum{\lambda(\alpha_i|w_j)P(w_j|\bold{x})} R(αi∣x)=∑λ(αi∣wj)P(wj∣x)
比较各种判决的条件平均风险,把样本 x \bold{x} x归属于条件平均风险最小的那一种判决
α ∗ = arg min i R ( α i ∣ x ) \alpha^* =\arg\min_{i}{R(\alpha_i|\bold{x})} α∗=argminiR(αi∣x)
类别 | ||
---|---|---|
α 1 \alpha_1 α1 | 0.5 | 2 |
α 2 \alpha_2 α2 | 6 | 0.5 |
λ ( α 1 ∣ w 1 ) = 0.5 , λ ( α 1 ∣ w 2 ) = 6 , λ ( α 2 ∣ w 1 ) = 2 , λ ( α 2 ∣ w 2 ) = 0.5 \lambda(\alpha_1|w_1)=0.5,\lambda(\alpha_1|w_2)=6,\lambda(\alpha_2|w_1)=2,\lambda(\alpha_2|w_2)=0.5 λ(α1∣w1)=0.5,λ(α1∣w2)=6,λ(α2∣w1)=2,λ(α2∣w2)=0.5
P ( w 1 ∣ x ) = 0.677 P(w_1|\bold{x})=0.677 P(w1∣x)=0.677, P ( w 2 ∣ x ) = 0.323 P(w_2|\bold{x})=0.323 P(w2∣x)=0.323
R ( α 1 ∣ x ) = ∑ j = 1 2 λ ( α 1 ∣ w j ) ⋅ P ( w j ∣ x ) = 2.2765 R(\alpha_1|\bold{x})=\sum_{j=1}^{2}{\lambda(\alpha_1|w_j)\cdot P(w_j|\bold{x})}=2.2765 R(α1∣x)=∑j=12λ(α1∣wj)⋅P(wj∣x)=2.2765
R ( α 2 ∣ x ) = ∑ j = 1 2 λ ( α 2 ∣ w j ) ⋅ P ( w j ∣ x ) = 1.5155 R(\alpha_2|\bold{x})=\sum_{j=1}^{2}{\lambda(\alpha_2|w_j)\cdot P(w_j|\bold{x})}=1.5155 R(α2∣x)=∑j=12λ(α2∣wj)⋅P(wj∣x)=1.5155
R ( α 2 ∣ x ) < R ( α 1 ∣ x ) R(\alpha_2|\bold{x})
∴ \therefore ∴甲呈阳性,癌症, x ∈ w 2 \bold{x}\in w_2 x∈w2。符合逻辑
最小错误率贝叶斯是最小风险贝叶斯的一个特例
判别函数 g i ( x ) g_i(\bold{x}) gi(x),若对于所有的 j ≠ i j\neq i j=i都有 g i ( x ) > g j ( x ) g_i(x)>g_j(x) gi(x)>gj(x),则分类器将这个特征向量 x \bold{x} x判给 w i w_i wi,结构类似softmax。
一般风险的情况下 g i ( x ) = − R ( α i ∣ x ) g_i(\bold{x})=-R(\alpha_i|\bold{x}) gi(x)=−R(αi∣x)
最小误差概率情况下 g i ( x ) = P ( w i ∣ x ) g_i(\bold{x})=P(w_i|\bold{x}) gi(x)=P(wi∣x)或 g i ( x ) = log P ( w i ∣ x ) g_i(\bold{x})=\log{P(w_i|\bold{x})} gi(x)=logP(wi∣x)
其他常见形式:
g i ( x ) = P ( w i ∣ x ) P ( w i ) g_i(\bold{x})=P(w_i|\bold{x})P(w_i) gi(x)=P(wi∣x)P(wi)
g i ( x ) = log P ( w i ∣ x ) + log P ( w i ) g_i(\bold{x})=\log{P(w_i|\bold{x})}+\log{P(w_i)} gi(x)=logP(wi∣x)+logP(wi)
核心假设:特征类条件独立
P ( x ∣ w i ) = ∏ k = 1 K P ( x k ∣ w i ) P(\bold{x}|w_i)=\prod_{k=1}^{K}{P(x_k|w_i)} P(x∣wi)=∏k=1KP(xk∣wi) x = [ x 1 , x 2 , . . . , x k ] \bold{x}=[x_1,x_2,...,x_k] x=[x1,x2,...,xk]
所有的输入属性是条件独立的
朴素贝叶斯判决准则
w ∗ = arg max { ∏ k + 1 K P ( x k ∣ w i ) P ( w i ) } w^*=\arg\max\{\prod_{k+1}^K{P(x_k|w_i)P(w_i)}\} w∗=argmax{∏k+1KP(xk∣wi)P(wi)}
当特征维度很高时,如果没有独立假设,需要估计的参数非常多。
零频问题(Zero-Frequency Problem)
训练数据中统计数据为零的部分会严重的影响测试结果,连乘中出现零
解决方法:
为了解决零频问题
朴素贝叶斯似然概率计算公式为: P ( x i ∣ w ) = ∣ D w , x i ∣ ∣ D w ∣ P(x_i|w)=\frac{|D_{w,x_i}|}{|D_w|} P(xi∣w)=∣Dw∣∣Dw,xi∣
分子为第w类属性取值为 x i x_i xi集合的样本个数,分母为第w类数据集的样本个数
先验概率计算公式为: P ( w ) = ∣ D w ∣ ∣ D ∣ P(w)=\frac{|D_w|}{|D|} P(w)=∣D∣∣Dw∣
分母为整体数据集样本个数
拉普拉斯平滑:
似然概率: P ( x i ∣ w ) = ∣ D w , x i ∣ + 1 ∣ D w ∣ + N i P(x_i|w)=\frac{|D_{w,x_i}|+1}{|D_w|+N_i} P(xi∣w)=∣Dw∣+Ni∣Dw,xi∣+1
其中 N i N_i Ni为该属性取值个数
先验概率: P ( w ) = ∣ D w ∣ + 1 ∣ D ∣ + N P(w)=\frac{|D_w|+1}{|D|+N} P(w)=∣D∣+N∣Dw∣+1
其中N为类别数
(原题目懒得抄了有时间就回来更新题目)
使用拉普拉斯平滑训练模型
先验概率:
P ( w 1 ) = 9 + 1 14 + 2 = 5 8 P ( w 2 ) = 5 + 1 14 + 2 = 3 8 \begin{gathered}P(w_1)=\frac{9+1}{14+2}=\frac{5}{8}\\P(w_2)=\frac{5+1}{14+2}=\frac{3}{8}\end{gathered} P(w1)=14+29+1=85P(w2)=14+25+1=83
似然概率:
云: P ( x 1 ∣ w 1 ) = 4 + 1 9 + 3 = 5 12 P ( x 1 ∣ w 2 ) = 0 + 1 5 + 3 = 1 8 \begin{gathered}P(x_1|w_1)=\frac{4+1}{9+3}=\frac{5}{12}\\P(x_1|w_2)=\frac{0+1}{5+3}=\frac{1}{8}\end{gathered} P(x1∣w1)=9+34+1=125P(x1∣w2)=5+30+1=81
热: P ( x 2 ∣ w 1 ) = 1 + 1 9 + 3 = 1 6 P ( x 2 ∣ w 2 ) = 2 + 1 5 + 3 = 3 8 \begin{gathered}P(x_2|w_1)=\frac{1+1}{9+3}=\frac{1}{6}\\P(x_2|w_2)=\frac{2+1}{5+3}=\frac{3}{8}\end{gathered} P(x2∣w1)=9+31+1=61P(x2∣w2)=5+32+1=83
湿度高: P ( x 3 ∣ w 1 ) = 3 + 1 9 + 2 = 4 11 P ( x 3 ∣ w 2 ) = 4 + 1 5 + 2 = 5 7 \begin{gathered}P(x_3|w_1)=\frac{3+1}{9+2}=\frac{4}{11}\\P(x_3|w_2)=\frac{4+1}{5+2}=\frac{5}{7}\end{gathered} P(x3∣w1)=9+23+1=114P(x3∣w2)=5+24+1=75
有风: P ( x 4 ∣ w 1 ) = 3 + 1 9 + 2 = 4 11 P ( x 4 ∣ w 2 ) = 3 + 1 5 + 2 = 4 7 \begin{gathered}P(x_4|w_1)=\frac{3+1}{9+2}=\frac{4}{11}\\P(x_4|w_2)=\frac{3+1}{5+2}=\frac{4}{7}\end{gathered} P(x4∣w1)=9+23+1=114P(x4∣w2)=5+23+1=74
P ( x ∣ w = 1 ) P ( w = 1 ) = [ ∏ k = 1 4 P ( x k ∣ w = 1 ) ] P ( w = 1 ) = 5 12 × 1 6 × 4 11 × 4 11 × 5 8 P ( x ∣ w = 0 ) P ( w = 0 ) = [ ∏ k = 1 4 P ( x k ∣ w = 0 ) ] P ( w = 0 ) = 1 8 × 3 8 × 5 7 × 4 7 × 3 8 P ( x ∣ w = 1 ) P ( w = 1 ) P ( x ∣ w = 0 ) P ( w = 0 ) = 12320 9801 > 1 \begin{gathered}P(\bold{x}|w=1)P(w=1)=[\prod_{k=1}^4{P(x_k|w=1)}]P(w=1)=\frac{5}{12}\times\frac{1}{6}\times\frac{4}{11}\times\frac{4}{11}\times\frac{5}{8}\\P(\bold{x}|w=0)P(w=0)=[\prod_{k=1}^4{P(x_k|w=0)}]P(w=0)=\frac{1}{8}\times\frac{3}{8}\times\frac{5}{7}\times\frac{4}{7}\times\frac{3}{8}\\\frac{P(\bold{x}|w=1)P(w=1)}{P(\bold{x}|w=0)P(w=0)}= \frac{12320}{9801}>1\end{gathered} P(x∣w=1)P(w=1)=[k=1∏4P(xk∣w=1)]P(w=1)=125×61×114×114×85P(x∣w=0)P(w=0)=[k=1∏4P(xk∣w=0)]P(w=0)=81×83×75×74×83P(x∣w=0)P(w=0)P(x∣w=1)P(w=1)=980112320>1
∴ \therefore ∴ 打网球
上一节:模型评估方法
下一节:线性回归