EM算法

1. 前提推导

EM算法_第1张图片
EM算法_第2张图片
EM算法_第3张图片
EM算法_第4张图片
EM算法_第5张图片
EM算法_第6张图片
EM算法_第7张图片

2. EM算法

EM算法就是含有隐变量的概率模型参数的极大似然估计法。

EM算法_第8张图片

延森不等式(Jensen's inequality)以丹麥數學家約翰·延森(Johan Jensen)命名。它給出積分的凸函數值和凸函數的積分值間的關係。延森不等式有以下推論:過一個凸函數上任意兩點所作割線一定在這兩點間的函數圖象的上方

无监督分类:聚类,EM。

问题:已知10000个人的身高,h1,h2,h3...h1000,样本中存在男性女性。假设身高分别服从两个高斯分布(男N(μ1,σ1);女N(μ2,σ2))。试着估计μ1, σ1, μ2, σ2。

EM算法_第9张图片
K相当于K-means里面的K;π1π2...πK,类似于先验概率。如:已经在某院校,男80%,女20%。
EM算法_第10张图片
N(xi|μk,∑k)计算过程如:P(s = 男 | xi = 1.98, μ1 =1.70, ∑1 = 10,  μ2 =1.64, ∑1 =8) = 0.3也就是给定xi这个样本,根据其他参数计算得出,身高1.98的该样本是男人的概率;πK = 0.8; i: 第i个样本;k: 第k个高斯分布;γ(i, k): 第i个样本来自第k个组份的概率。

如:已知先验概率,男被选中概率为80%,女被选中概率20%。对于某一样本,P(s = 男 | 1.98) = 0.3, 0.8 * 0.3 = 0.24。P(s = 女 | 1.98) = 0.01,0.2*0.01 = 0.002。0.24/0.24+0.002 = ??(归一化)=>γ(男,198) = 0.99,γ(女,198) = 0.01。

EM算法_第11张图片
π1,π2,μ1,μ2,∑1,∑2均为未知,随机选择相应数据,进行计算
EM算法_第12张图片
1.98*0.9,1.62*0.3,1.57*....算的是纯爷们的个数,由于男性样本服从高斯分布,所以原则上说(x1²+x2²+...+xN²)/N = μ1,此处N = 0.9+0.3+...
EM算法_第13张图片
这些值总是可以算的,同理可以算N女,μ女....

把算出来的π1,π2,μ1,μ2,∑1,∑2带回到第一步重新计算,再得出新的π1,π2,μ1,μ2,∑1,∑2,循环往复,直至收敛。(无法达到全局最优解,且初始值不能随便取)

EM算法_第14张图片
EM算法_第15张图片
EM算法_第16张图片
EM算法_第17张图片
EM算法_第18张图片
EM算法_第19张图片
EM算法_第20张图片
EM算法_第21张图片
EM算法_第22张图片
EM算法_第23张图片
EM算法_第24张图片
EM算法_第25张图片
EM算法_第26张图片
EM算法_第27张图片
EM算法_第28张图片
EM算法_第29张图片
EM算法_第30张图片
EM算法_第31张图片

你可能感兴趣的:(EM算法)