KL散度及Python实现

KL散度及Python实现

  • 1 KL散度
    • 1.1 定义
    • 1.2 公式
    • 1.3 几个结论
    • 1.4 应用
      • 1.4.1 应用1:机器学习领域
      • 1.4.2 应用2:用户画像
  • 2 Python实现求解
    • 2.1 生成分布
    • 2.2 计算方法1
    • 2.3 计算方法2
  • 3 参考

1 KL散度

在很多场合,经常会遇到KL散度这个概念,那么它到底是什么含义呢?如何定义的?又有哪些应用场景?最后如何用Python进行计算呢?

1.1 定义

KL散度(Kullback-Leibler divergence,简称KLD):

  • 在信息系统中称为相对熵(relative entropy)
  • 在连续时间序列中称为随机性(randomness)
  • 在统计模型推断中称为信息增益(information gain)。也称信息散度(information divergence)。

KL散度是用于衡量分布P相对于分布Q的差异性。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布

注:这个指标不能用作距离衡量,因为该指标不具有对称性,DKL(P|Q) ≠ DKL(Q|P)

1.2 公式

离散分布:

D K L ( P ∣ Q ) = ∑ i P ( i ) log ⁡ P ( i ) Q ( i ) D_{KL}(P|Q)=\sum\limits_i P(i)\log \frac{P(i)}{Q(i)} DKL(PQ)=iP(i)logQ(i)P(i)

连续分布:

D K L ( P ∣ Q ) = ∫ − ∞ ∞ p ( x ) log ⁡ p ( x ) q ( x ) d x D_{KL}(P|Q)=\int_{-\infty}^{\infty}p(x)\log\frac{p(x)}{q(x)}dx DKL(PQ)=p(x)logq(x)p(x)dx

1.3 几个结论

  • KL散度是大于等于0的,所以可以作为衡量两个分布之间不相似程度的度量,越小越相似,越大越不相似。
  • 最小化KL等价于最大化似然函数

1.4 应用

1.4.1 应用1:机器学习领域

机器学习领域中的生成模型往往涉及到生成尽可能反映真实情况的分布模型

比如,生成对抗网络(GAN)在图片上的应用往往执行的是类似基于黑白图片生成看起来尽量真实的彩色图片这样的任务。在这类似的应用中,输入往往是图像或像素。网络会学习这些像素之间的依赖关系(比如临近像素通常有相似的颜色),然后使用它来创建看起来尽量真实的图像。因此,生成器的目标就是最小化所学到的像素分布于真实图像像素分布之间的散度

1.4.2 应用2:用户画像

比如电商场景,可以使用KL散度去计算同一类型商品不同用户群体之间的金额(或其余指标)KL散度,如果都很接近,说明这个类型商品不是不同用户群体之间的差异点,可以进行剔除,只保留有差异性的商品类型(KL散度较大),这样就可以基于结果去对用户进行更好的画像~

2 Python实现求解

2.1 生成分布

import numpy as np
import scipy.stats
 
# 随机生成两个离散型分布
x = [np.random.randint(1, 11) for i in range(10)]
print(x)
print(np.sum(x))
px = x / np.sum(x)
print(px)
y = [np.random.randint(1, 11) for i in range(10)]
print(y)
print(np.sum(y))
py = y / np.sum(y)
print(py)
[9, 3, 10, 5, 10, 4, 7, 6, 8, 1]
63
[0.14285714 0.04761905 0.15873016 0.07936508 0.15873016 0.06349206
 0.11111111 0.0952381  0.12698413 0.01587302]
[6, 5, 10, 1, 7, 9, 9, 6, 2, 8]
63
[0.0952381  0.07936508 0.15873016 0.01587302 0.11111111 0.14285714
 0.14285714 0.0952381  0.03174603 0.12698413]

2.2 计算方法1

# 利用scipy API进行计算
# scipy计算函数可以处理非归一化情况,因此这里使用
# scipy.stats.entropy(x, y)或scipy.stats.entropy(px, py)均可
'''
用函数entropy用x和y 或者 px, py 都可以
'''
KL = scipy.stats.entropy(px, py)
print(KL)

KL = scipy.stats.entropy(x, y)
print(KL)
0.2815657077409675
0.2815657077409676

2.3 计算方法2

# 编程实现
'''
用公式编程就用px和py
'''
KL = 0.0
for i in range(10):
    KL += px[i] * np.log(px[i] / py[i])
# print(str(px[i]) + ' ' + str(py[i]) + ' ' + str(px[i] * np.log(px[i] / py[i])))
 
print(KL)
0.2815657077409677

验证对称性不成立:

KL = scipy.stats.entropy(y, x)
print(KL)
0.3085447676484088

确实和上述0.28不一致~

3 参考

  • https://blog.csdn.net/jacke121/article/details/107852096
  • https://www.jianshu.com/p/43318a3dc715
  • https://zhuanlan.zhihu.com/p/39682125
  • https://zh.wikipedia.org/wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
  • 应用参考:https://www.cnblogs.com/charlotte77/p/5392052.html
  • 应用参考2:https://blog.csdn.net/june_young_fan/article/details/114935283

你可能感兴趣的:(Python,统计学,python,机器学习,计算机视觉)