机器学习中的信息量与熵

 

我们在学习机器学习算法的时候经常听到自信息、互信息、条件熵、交叉熵等概念。下面为我在学习过程中总结的信息量和熵的相关概念。

信息量:度量的是一个具体事件发生所带来的信息

熵:在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望

目录

目录

信息量的相关概念有:自信息、互信息

自信息:I(X)

互信息:I(X;Y)

熵:H(X)

联合熵:H(X,Y)

条件熵:H(X|Y)

交叉熵:H(p,q)

相对熵(KL散度):D(p||q)

信息量和熵的关系



信息量的相关概念有:自信息、互信息

  • 自信息:I(X)

    • 表示一个事件发生后所带来的信息量
    • 概率p(x)越小,x出现的概率就越小,一旦出现所获得的信息量就越大

  • 互信息:I(X;Y)

    • 变量间相互依赖性的量度,知道这两个变量其中一个,对另一个不确定度减少的程度
    • 互信息在ID3算法中叫做信息增益
    • 信息增益 = 熵 - 条件熵
    • 不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度

熵的相关概念有信息熵、联合熵、条件熵、交叉熵、相对熵

  • 熵:H(X)

  • 熵度量了事物的不确定性,越不确定的事物,它的熵就越大
  • 自信息表示的是单一事件发生时包含的信息量,而信息熵表示的是整个随机分布平均信息量

  • 联合熵:H(X,Y)

 

 

  • 条件熵:H(Y|X)

    • 表示在已知随机变量X的条件下随机变量Y的不确定性

机器学习中的信息量与熵_第1张图片

 

  • 交叉熵:H(p,q)

    • 假如有随机分布p,q,p对q的交叉熵表示q分布的自信息对p分布的期望
    • 衡量p与q的相似性
    • 衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小
    • 逻辑回归的损失函数为交叉熵

机器学习中的信息量与熵_第2张图片

 

  • 相对熵(KL散度):D(p||q)

    • 衡量两个概率分布之间的差异
    • p与q不相似的度量

  • 信息量和熵的关系

  • 信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望

机器学习中的信息量与熵_第3张图片

 

你可能感兴趣的:(机器学习)