深度学习你必须知道的几个信息理论概念

深度学习你必须知道的几个信息理论概念_第1张图片

 

信息论是一个重要的领域,它对深度学习和人工智能作出了重大贡献,但很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分的复杂融合。人工智能中的很多概念来自信息论或相关领域:

  • 常用的交叉熵损失函数

  • 根据最大信息增益构建决策树

  • 广泛应用于NLP和语音领域的维特比算法

  • 广泛用于机器翻译RNN和各种其他类型模型的编码器-解码器概念

 

 熵

也可以称为信息熵或香农熵。

深度学习你必须知道的几个信息理论概念_第2张图片

熵是实验中随机性或不确定性的度量

熵给出了实验中不确定性的度量。让我们考虑两个实验:

  • 抛出一枚无偏硬币(P(H)= 0.5)并观察它的输出,假设H

  • 抛出一枚有偏硬币(P(H)= 0.99)并观察其输出,假设H

如果我们比较两个实验,与实验1相比,实验2更容易预测结果。因此,我们可以说实验1本质上比实验2更不确定或不可预测。实验中的这种不确定性是使用熵度量的。

因此,如果实验中存在更多固有的不确定性,那么它的熵更大。或者说实验越不可预测熵越大。实验的概率分布用于计算熵。

一个完全可预测的确定性实验,即投掷P(H)= 1的硬币的熵为零。一个完全随机的实验,比如滚动无偏骰子,是最不可预测的,具有最大的不确定性,在这些实验中熵最大。

深度学习你必须知道的几个信息理论概念_第3张图片

抛掷一枚无偏硬币的实验比抛掷有偏硬币具有更多的熵

另一种观察熵的方法是我们观察随机实验结果时获得的平均信息。将实验结果获得的信息定义为该结果发生概率的函数。结果越罕见,从观察中获得的信息就越多。

例如,在确定性实验中,我们总是知道结果,因此通过观察结果没有获得新信息,因此熵为零。

数学定义

对于离散随机变量X,可能的结果(状态)x_1,...,x_n,熵(以位为单位)定义为:

关于深度学习你必须知道的几个信息理论概念

其中p(x_i)是X的第i个结果的概率。

应用

  • 熵用于自动决策树构造。在树构建的每个步骤中,使用熵标准来完成特征选择。

  • 基于最大熵原理选择模型,从对比的模型中选出熵最大的模型为最佳模型。

  交叉熵

交叉熵用于比较两个概率分布。它告诉我们两个分布有多相似。

数学定义

在相同的结果集上定义的两个概率分布p和q之间的交叉熵由下式给出:

关于深度学习你必须知道的几个信息理论概念

应用

深度学习你必须知道的几个信息理论概念_第4张图片

基于卷积神经网络的分类器通常使用softmax层作为最后一层,并使用交叉熵损失函数进行训练

  • 交叉熵损失函数广泛用于逻辑回归等分类模型,随着预测偏离真实输出,交叉熵损失函数会增大。

  • 在诸如卷积神经网络的深度学习架构中,最终输出的softmax层经常使用交叉熵作为损失函数。

  交互信息

交互信息是两种概率分布或随机变量之间相互依赖性的度量。它告诉我们另一个变量有多少关于该变量的信息。

交互信息获取随机变量之间的依赖性,比一般的相关系数更具广义性,后者只表现线性关系。

数学定义

两个离散随机变量X和Y的交互信息定义为:

关于深度学习你必须知道的几个信息理论概念

其中p(x,y)是X和Y的联合概率分布,p(x)和p(y)分别是X和Y的边缘概率分布。

应用

深度学习你必须知道的几个信息理论概念_第5张图片

在贝叶斯网络中,可以使用交互信息来确定变量之间的关系结构

  • 特征选择:使用交互信息,而不是使用相关性。相关性仅表现线性依赖性而忽略非线性依赖性,但交互信息不会。零的交互独立性保证随机变量是独立的,但零相关不是。

  • 在贝叶斯网络中,交互信息用于学习随机变量之间的关系结构,并定义这些关系的强度。

  Kullback Leibler(KL)散度

也称为相对熵。

深度学习你必须知道的几个信息理论概念_第6张图片

KL散度用于比较两个概率分布

KL散度是另一种表示两个概率分布之间相似性的方法。它衡量一个分布与另一个分布的差异。

假设我们有一些数据,它的真实分布是P。但是我们不知道P,所以我们选择一个新的分布Q来近似这个数据。由于Q只是一个近似值,它无法像P那样准确地逼近数据,会造成一些信息的丢失。这个信息损失由KL散度给出。

P和Q之间的KL散度告诉我们,当我们试图用P和Q来近似数据时,我们损失了多少信息。

数学定义

一个概率分布Q与另一个概率分布P的KL散度定义为:

关于深度学习你必须知道的几个信息理论概念

应用

KL散度通常用于无监督机器学习技术中的变分自编码器。

信息论最初是由数学家和电气工程师克劳德·香农,在1948年的开创性论文“通信的数学理论”中提出的。

注意:随机变量和AI,机器学习,深度学习,数据科学等专业术语已被广泛使用,但在不同的领域中会有不同的物理含义。

今日资源推荐

咕泡学院仿生学神经网络人工智能高薪九二也实战课》课程

以深度神经网络为代表的“深度学习”系统正开始逐渐地接手人工智能的各种任务,从YOLO多物体追踪、图像识别、图像分割、图像补全、语音唤醒、聊天机器人等。因此,在许多先进的学术环境中,深度学习的专业知识正迅速从深奥的需要转变为强制性的先决条件,并在工业就业市场上具有很大优势。

在本课程中,我们将学习深层神经网络的基础知识,以及它们在各种人工智能任务中的应用。在课程结束时,学生应该对该学科有一定的了解,并能够将深度学习应用到各种任务中。

 

你可能感兴趣的:(人工智能,深度学习)