从基础概率推导贝叶斯公式以及朴素贝叶斯公式
贝叶斯推论
什么是贝叶斯定理(Bayes Theorem)
官方解释:贝叶斯定理是关于事件A与事件B的条件概率和边缘概率的一项准则 or 定理
意义解释:利用我们已有的知识(也称先验知识 or 先验信念)帮助计算相关事件的概率
数学表示:
P ( A ∣ B ) = P ( B ∣ A ) × P ( A ) P ( B ) P(A | B)=\frac{P(B | A) \times P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)×P(A)
其中,
贝叶斯定理可以形象地描述为:后验概率 = (相似度*先验概率) / 标准化常量,即后验概率与相似度和先验概率的乘积成正比,由于 P(B|A) / P(B) 也被称作标准相似度,因此贝叶斯定理也可表述为:后验概率 = 标准相似度 * 先验概率
小试牛刀x1 (贝叶斯定理示例)
假定一副扑克牌里有 52 张牌,其中 26 张是红色的,26 张是黑色的。那么当牌是红色的时候,牌上数字为 4 的概率是多少?
我们『将牌为数字 4 设为事件 A』,『将牌为红色设为事件 B』。此时我们需要计算的是概率 P(A|B) = P(4|Red),利用贝叶斯定理可计算出该概率值:
先验概率(已解释)
后验概率(已解释)
Note: 先验知识本身并不是完全客观的,可能带有主观成分,甚至是完全的猜测。而这也会对最终的条件概率计算产生影响!!!
贝叶斯推理
定义
『推理』 or『统计』 是从数据中推导群体分布 or 概率分布的性质的过程。比如,最大似然估计,其可以通过一系列的观察数据点确定平均值的最大似然估计。因此,贝叶斯推理也是利用贝叶斯定理从数据中推导群体分布或概率分布的性质的过程.
使用贝叶斯定理处理数据分布
概率分布可分为离散型概率分布和连续性概率分布。对于离散型概率分布我们可以指定事件发生的可能性;而对于连续型概率分布,其可以为任何值,每个概率值对应一个先验信念,很自然的用函数的形式 f(x) 表示,以下分布也称为先验分布 (Prior Distribution)Prior Distribution
贝叶斯定理的模型形式
我们将用 Θ 取代事件 A,Θ 表示参数的集合。如果要估计高斯分布的参数值,则 Θ 代表了平均值 μ 和标准差 σ,用数学形式表示为 Θ = {μ, σ}
我们用 data 或 y={y1, y2, …, yn} 取代事件 B,它代表了观察数据的集合
P ( Θ ∣ d a t a ) = P ( d a t a ∣ Θ ) × P ( Θ ) P ( d a t a ) P(\Theta | d a t a)=\frac{P(d a t a | \Theta) \times P(\Theta)}{P(d a t a)} P(Θ∣data)=P(data)P(data∣Θ)×P(Θ)
同理,
Note: 对于 P(data) 的解释
我们只对参数的分布感兴趣,而 P(data) 对此并没有任何参考价值
P(data) 的真正重要性在于它是一个归一化常数 or 标准化常量,它确保了计算得到的后验分布的总和等于 1
在某些情况下,我们并不关心归一化,因此可以将贝叶斯定理写成这样的形式
P ( Θ ∣ d a t a ) ∝ P ( d a t a ∣ Θ ) × P ( Θ ) P(\Theta | d a t a) \propto P(d a t a | \Theta) \times P(\Theta) P(Θ∣data)∝P(data∣Θ)×P(Θ)
其中 ∝ 表示符号左边正比于符号右边的表达式
小试牛刀x2 (贝叶斯推理示例 之 计算氢键键长,你无需知道 氢键是 神马东东-vv-)
假设氢键是 3.2Å—4.0Å。该信息将构成问题的先验知识。就概率分布而言,将其形式化为均值
μ = 3.6Å,标准差 σ = 0.2Å 的高斯分布(为何使用高斯分布,请参照前期Task)氢键键长的先验分布
我们现在选取一些数据(由均值为 3Å 和标准差为 0.4Å 的高斯分布随机生成的 5 个数据点),代表了氢键的测量长度(下图中的黄色点)。我们可以从这些数据点中推导出似然度分布,即下图中黄色线表示的似然度分布。注意从这 5 个数据点得到的最大似然度估计小于 3Å(大约 2.8Å)
氢键长度的先验分布(蓝线),和由 5 个数据点导出的似然度分布(黄线)
现在我们有两个高斯分布。由于忽略了归一化常数,因此已经可以计算非归一化的后验分布了。高斯分布的定义如下
P ( x ; μ , σ ) = 1 σ 2 π exp ( − ( x − μ ) 2 2 σ 2 ) P(x ; \mu, \sigma)=\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) P(x;μ,σ)=σ2π1exp(−2σ2(x−μ)2)
我们需要将上述的两个分布乘起来,然后得到下图的粉线所示的后验分布 蓝色分布和黄色分布的乘积得到粉色的后验分布
现在我们得到了氢键键长的后验分布,可以从中推导出统计特征…
朴素贝叶斯
定义
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入实例x,利用贝叶斯定理求出后验概率最大的输出y.
基本方法与算法
基本方法
设输入空间
X ⊆ R n \mathcal{X} \subseteq \mathbf{R}^{n} X⊆Rn
为 n 维向量的集合,输出空间为类标记集合
y i ∈ { c 1 , c 2 , ⋯   , c K } . y_{i} \in\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}. yi∈{c1,c2,⋯,cK}.
输入为特征向量
x ∈ X x \in \mathcal{X} x∈X
输出为类标签
y ∈ Y y \in \mathcal{Y} y∈Y
X 是 定 义 在 输 入 空 间 X 上 的 随 机 向 量 , Y 是 定 义 在 输 出 空 间 Y 上 的 随 机 变 量 . P ( X , Y ) 是 X 和 Y 的 联 合 概 率 分 布 , 训 练 集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } 由 P ( X , Y ) 独 立 产 生 . X 是 定义在输入空间\mathcal{X}上的随机向量,\\ \\ Y 是定义在输出空间\mathcal{Y}上的随机变量.\\ \\ P(X,Y)是X和Y的联合概率分布,\\ 训练集T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} 由P(X,Y)独立产生. X是定义在输入空间X上的随机向量,Y是定义在输出空间Y上的随机变量.P(X,Y)是X和Y的联合概率分布,训练集T={(x1,y1),(x2,y2),⋯,(xN,yN)}由P(X,Y)独立产生.
朴素贝叶斯方法是通过训练数据集学习联合概率分布P(X,Y).
具体来说,就是指学习以下的先验概率分布以及条件概率分布:
先验概率分布
P ( Y = c k ) , k = 1 , 2 , ⋯   , K P\left(Y=c_{k}\right), \quad k=1,2, \cdots, K P(Y=ck),k=1,2,⋯,K
条件概率分布(条件概率分布有指数级数量的参数,其估计实际上是不可取的!!!)
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯   , X ( n ) = x ( n ) ∣ Y = c k ) , k = 1 , 2 , ⋯   , K P\left(X=x | Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right), \quad k=1,2, \cdots, K P(X=x∣Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)∣Y=ck),k=1,2,⋯,K
联合概率分布由先验概率和条件概率分布得知.
朴素贝叶斯之所以称为朴素,是因为朴素贝叶斯方法是对条件概率分布作了条件独立性假设,由于这是一个较强的假设,因此朴素贝叶斯因此而得名。具体来说,条件独立性假设为:
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯   , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned} P(X=x∣Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
确定实例对应的类别:
y = arg max a P ( Y = c k ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) y=\arg \max _{a} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) y=argamaxP(Y=ck)j=1∏nP(X(j)=x(j)∣Y=ck)
高斯朴素贝叶斯
多项式朴素贝叶斯
贝叶斯信念网络(后续补充)
贝叶斯网络(后续补充) 属于 图模型的范畴(最近GCN or GNN 图神经网络如如后春笋,实用价值很高)
图模型(尽管模型清晰,但很难确定其依赖关系)
图神经网络(GNN)
判别模型(Descriminative Model) vs. 生成模型(Generative Model)
判别模型
生成模型