高斯判别分析(GDA)和朴素贝叶斯(NB)

生成模型和判别模型

监督学习一般学习的是一个决策函数 y = f ( x ) y=f(x) y=f(x)或者是条件概率分布 p ( y ∣ x ) p(y|x) p(yx)

判别模型直接用数据学习这个函数或分布,例如Linear Regression和Logistic Regression。
生成模型是先用数据学习联合概率分布 p ( x , y ) p(x,y) p(x,y),然后使用贝叶斯公式求 p ( y ∣ x ) p(y|x) p(yx)
p ( y ∣ x ) = p ( y ) p ( x ∣ y ) p ( x ) p(y|x)=\frac{p(y)p(x|y)}{p(x)} p(yx)=p(x)p(y)p(xy)
y = arg ⁡ max ⁡ y p ( y ∣ x ) y=\arg\max_yp(y|x) y=argymaxp(yx)
y y y不影响 p ( x ) p(x) p(x),故
y = arg ⁡ max ⁡ y p ( y ) p ( x ∣ y ) y=\arg\max_yp(y)p(x|y) y=argymaxp(y)p(xy)

高斯判别分析

假设:
y ∼ B e r n o u l l i ( ϕ ) x ∣ y = 0 ∼ N ( μ 0 , Σ ) x ∣ y = 1 ∼ N ( μ 1 , Σ ) y \sim Bernoulli(\phi) \\ x|y=0 \sim \mathcal{N}(\mu_0,\Sigma) \\x|y=1 \sim \mathcal{N}(\mu_1, \Sigma) yBernoulli(ϕ)xy=0N(μ0,Σ)xy=1N(μ1,Σ)
那么 p ( y ) = ϕ y ( 1 − ϕ ) ( 1 − y ) p ( x ∣ y = 0 ) = 1 2 π n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) ) p ( x ∣ y = 1 ) = 1 2 π n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ) p(y) =\phi^y(1-\phi)^{(1-y)} \\ p(x|y=0) =\frac{1}{2\pi^{n/2}|\Sigma|^{1/2}}\exp \left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right) \\ p(x|y=1) =\frac{1}{2\pi^{n/2}|\Sigma|^{1/2}}\exp \left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right) p(y)=ϕy(1ϕ)(1y)p(xy=0)=2πn/2Σ1/21exp(21(xμ0)TΣ1(xμ0))p(xy=1)=2πn/2Σ1/21exp(21(xμ1)TΣ1(xμ1))
于是使用极大似然估计求得参数 μ 0 , μ 1 , Σ , ϕ \mu_0,\mu_1,\Sigma,\phi μ0,μ1,Σ,ϕ
最终GDA模型如下:
高斯判别分析(GDA)和朴素贝叶斯(NB)_第1张图片

朴素贝叶斯模型

在朴素贝叶斯模型中我们假设给定 y y y,所有的特征 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn都是独立的,这是一个非常重要的假设。有了这个假设,我们就可以很方便的求解 p ( x ∣ y ) p(x|y) p(xy)了,而 y y y服从伯努利分布, p ( x , y ) p(x,y) p(x,y)也就有了。
p ( x ∣ y ) = p ( x 1 ∣ y ) p ( x 2 ∣ y ) … p ( x n ∣ y ) p(x|y)=p(x_1|y)p(x_2|y)\ldots p(x_n|y) p(xy)=p(x1y)p(x2y)p(xny)
对于离散情况,我们假定 p ( x i ∣ y ) p(x_i|y) p(xiy)服从多项式分布(包括二项式分布)。
对于连续情况,我们假定 p ( x i ∣ y ) p(x_i|y) p(xiy)服从高斯分布。
然后使用极大似然估计求解模型中参数,最后使用 y = arg ⁡ max ⁡ y p ( x , y ) y=\arg\max_y p(x,y) y=argmaxyp(x,y)求得 y y y

在连续情况下,我们一般使用高斯判别分析;在离散情况下,则使用朴素贝叶斯模型。

转载博客:高斯判别分析(GDA)和朴素贝叶斯(NB)

你可能感兴趣的:(机器学习,数学)