单符号离散模型

信源每次输出一个单一符号，信宿每次接收一个单一符号
信源（事件X）

信宿（事件Y）

自信息

-- 自信息量
-- 联合自信息量
-- 条件自信息量

其中表示的不确定度，表示已知的情况下，仍存在的不确定度

熵（平均信息量）

信源熵

联合熵

条件熵

互信息

信源发出的概率为
信宿收到时推测信源发出的概率为
互信息量定义为：

对的互信息量可以理解为，的不确定度减去确定后的不确定度，即确定后消除的对的不确定度

平均互信息量

其物理意义：
1）信源的先验不确定度- 信道疑义度

2）信宿熵 - 信道噪声

3）通信前的熵 - 通信后产生统计性联系的熵

image.png

信道容量

信道转移矩阵

如果信源熵为，由于信道存在干扰，一般情况下输出端只能接收到

定义信道的信息传输率

平均互信息是信源无条件分布概率
和信道转移概率的函数，当信道特性（信道转移概率）固定后，互信息随着信源分布概率变化，且为上凸函数

找到一种信源概率分布，使信息传输率最大，定义这个最大的信息传输率为传输容量

相对熵与交叉熵

相对熵也称KL散度，在信息理论中，相对熵是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

相对熵也可以衡量两个随机分布之间的距离

定义交叉熵

多符号离散平稳模型

信源每次输出一个符号序列，序列的每一位都是随机的，而前后符号是有统计关系的，若信源发出的符号序列的概率分布与时间无关，我们称之为多符号离散平稳信源。

二维平稳信源

信源发出的符号序列中，每两个符号看作一组，每组代表一个消息，为了便于分析，我们假设组与组之间是统计独立的，但是要注意这与实际情况并不相符，由此得出的信源熵仅仅是近似值。
假设
则
，

信源熵为

N维平稳信源

信源熵为

极限熵

信源平均每发一个符号所提供的信息量为

当时，，称为极限熵
在研究实际信源时，必须求出极限熵才能确切地表达每发一个符号提供的信息量，而这是比较困难的

马尔可夫信源

在许多信源的输出序列中，符号之间的依赖是有限的，任何时刻信源发生的概率只与前面若干个符号有关。
在随机变量序列中，时刻m+1的随机变量只与前面发生的m个随机变量有关，与更前面的随机变量无关，这种信源称为马尔可夫信源
因此，极限熵

在机器学习上的应用

使用交叉熵作为loss function

在分类学习时，真实label的概率分布为Y，预测label的概率分布为A，要使A尽量接近Y，可以最小化，由于H(Y)是常数，因此可以简化为最小化

最大熵模型

基本思想：在满足约束的情况下，最大化的条件熵，使用来进行预测

从训练数据中，根据极大似然估计，可以求出经验分布和
特征函数
用特征函数的期望建立约束，有n个特征函数，就有n个约束

建立最优化模型

决策树模型

建立树模型，每个节点代表一个特征的划分，使用0-1 loss function
节点划分是一个NP-hard问题，考虑采用启发式算法，根据规则每次选择最好的节点
其中一个规则是该节点可以提供最多的信息，即熵减小最多，熵越小，loss function越小，所以实际上是选择使loss function减小最多的节点
设数据集为D，特征为A，分割前的熵为H(D)，分割后有多个数据集，分割后的熵为，因此信息增益为，选择信息增益最大的特征

信息论基本概念