KL散度(距离)和JS散度(距离)

两者都可以用来衡量两个概率分布之间的差异性。JS散度是KL散度的一种变体形式。

KL散度:

也称相对熵、KL距离。对于两个概率分布P和Q之间的差异性(也可以简单理解成相似性),二者越相似,KL散度越小。

KL散度的性质:

●非负性。即KL散度大于等于零。

●非对称性。即运算时交换P和Q的位置,得到的结果也不一样。(所以这里严格来讲也不能把KL散度称为KL距离,距离一定符合对称性,所以要描述准确的话还是建议用KL散度来表述)

离散分布公式:

D_{K L}(P \mid Q)=\sum_{i} P(i) \log \frac{P(i)}{Q(i)}

连续分布公式:

D_{K L}(P \mid Q)=\int_{-\infty}^{\infty} P(x) \log \frac{P(x)}{Q(x)} d x

python代码实现:

#KL_divergence
import numpy as np
import scipy.stats
P=np.array([1/4,1/2,1/4,1/4])
Q=np.array([1/3,1/3,1/6,1/6])
def KL_divergence(P,Q):
    return scipy.stats.entropy(P,Q)
print(KL_divergence(P,Q)) # 0.04369212068196553
print(KL_divergence(P,Q)) # 0.04369212068196553

JS散度:

JS散度是KL散度的一种变体,与KL散度相似,P和Q越相似,JS散度越小。

JS散度的性质:

●JS散度的值域范围是[0,1],完全相同为0,完全相反为1。相较于KL,对相似度的判别更确切了。

●对称性。通过公式可以看出交换了P和Q的位置计算结果仍然一样。(个人认为这种JS散度的出现就是为了解决KL散度不对称的问题)

D_{J S}(P \mid Q)=\frac{1}{2} D_{K L}\left(P \mid \frac{P+Q}{2}\right)+\frac{1}{2} D_{K L}\left(Q \mid \frac{P+Q}{2}\right)

python代码实现:

#JS_divergence
import numpy as np
import scipy.stats
P=np.array([1/4,1/2,1/4,1/4])
Q=np.array([1/3,1/3,1/6,1/6])
R=np.array([1/10,3/10,4/10,2/10])
def JS_divergence(P,Q):
    M=(P+Q)/2
    return 0.5*scipy.stats.entropy(P, M)+0.5*scipy.stats.entropy(Q, M)
print(JS_divergence(P,Q))  # 0.011598863066818382
print(JS_divergence(Q,P))  # 0.011598863066818382
print(JS_divergence(R,R)) # 0.0

你可能感兴趣的:(自然语言处理)