• 信息量

    信息量中基的选择是任意的,信息论里为2,所以信息的单位为bits,而机器学习中常常选择自然数,因此单位常常是nats,信息量I也被称为随机变量x的自信息,表示x发生所带来的信息量

  • 信息熵:随机变量的不确定性,量化为随机变量所有可能取值的信息量的期望

    这里可以发现,随机变量取值的可能情况越多,熵越大,随机变量越乱,当随机变量呈均匀分布时,熵最大,且可以证明:
    熵只依赖于随机变量的分布,和其取值无关
    0log0 = 0(因为随机变量取某个值的概率可能为0)
    香农定理表明,熵是传输一个随机变量所有状态所需比特位数的下界

  • 联合熵:一维随机变量熵向多维扩展就是联合熵

  • 条件熵:定义为在X给定的条件下Y的条件概率分布的熵对X的期望

    条件熵相当于联合熵监督条件的熵,即:

  • 相对熵:也称为KL散度

    • 如果则相对熵为0

    相对熵用来衡量两个概率分布的差异,这个正好迎合机器学习中最小化目标模型分布和训练集分布差异的需求
    相对熵是指用 q 来表示分布 p 额外需要的编码长度。

  • 交叉熵:

    对比相对熵的公式可以发现:

    所以,两个分布的交叉熵实际上就是用一个分布编码满足另一个分布的随机变量相对于用它本来的分布编码所需的额外字节数
    在机器学习中,是个常量(训练集确定),所以最小化相对熵就等价于最小化交叉熵(也等价于最大化似然函数)
    交叉熵广泛应用于逻辑回归中的sigmoid和softmax函数中作为损失函数
    交叉熵是指用分布 q 来表示分布 p 的平均编码长度

你可能感兴趣的:(熵)