对于一个多分类问题 (假设为 K K K 类), 有数据集 D = { ( x i , y i ) ∣ i } D = \{ \ (x_i,y_i \ ) \mid i \} D={ (xi,yi )∣i}. 我们希望建立模型去建模概率分布 p θ ( y ∣ x ) p_{\theta}(y \mid x) pθ(y∣x), 模型参数为 θ \theta θ.
我们使用损失函数评价模型的好坏, 可以采用两种方式来导出.
由于是多分类问题, 在样本空间上的 p ( y ∣ x ) p(y \mid x) p(y∣x) 满足某个分类分布. 由分类分布定义可以知道.
p ( y ∣ x ; θ ) = ∏ k = 1 K p k y k p (y \mid x ; \theta) = {\textstyle \prod_{k=1}^{K}} p_{k}^{y_k} p(y∣x;θ)=∏k=1Kpkyk
其中, p p p 是分布的输出概率向量 , θ \theta θ 是分布的参数. y y y 是 o n e − h o t \mathrm{one-hot} one−hot 编码的标签向量.
例如对于一个天气 4 分类问题, 输出概率向量如下:
p = {'rain' : 0.14 , 'snow' : 0.37 , 'sleet' : 0.03 , 'hail' : 0.46}
则分类为 s n o w \mathrm{snow} snow 的概率为 P ( y = s n o w = [ 0 , 1 , 0 , 0 ] ) = ( 0.14 ) 0 ∗ ( 0.37 ) 1 ∗ ( 0.03 ) 0 ∗ ( 0.46 ) 0 = 0.37 P(y = \mathrm{snow} = [0,1,0,0]) = (0.14)^0 * (0.37)^1 * (0.03)^0 * (0.46)^0 = 0.37 P(y=snow=[0,1,0,0])=(0.14)0∗(0.37)1∗(0.03)0∗(0.46)0=0.37
当使用极大似然估计去估计分布参数 θ \theta θ.
假设有 n n n 个样本: ( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)), 则似然函数为
L ( x ( i ) , y ( i ) ; θ ) = ∏ i = 1 n ∏ k = 1 K p k y k \mathcal{L} (x^{(i)},y^{(i)} ; \theta) = {\textstyle \prod_{i=1}^{n}} {\textstyle \prod_{k=1}^{K}} p_{k}^{y_k} L(x(i),y(i);θ)=∏i=1n∏k=1Kpkyk
我们期待最大化似然估计, 即最小化负对数似然函数. 转换成对数是因为计算机常做乘法, 这样有利于计算.
min ( − ∏ i = 1 n ∏ k = 1 K y k log p k ) \min ( - {\textstyle \prod_{i=1}^{n}} {\textstyle \prod_{k=1}^{K}} y_k \log{p_k} ) min(−∏i=1n∏k=1Kyklogpk)
由于采用 o n e − h o t \mathrm{one-hot} one−hot 编码, 故 y k = 0 y_k=0 yk=0 的项乘积均为 0, 只需考虑 y k = 1 y_k=1 yk=1 时. 故上述函数可变形为:
min ( − ∏ i = 1 n log P k ( y k = 1 ) ) \min ( - {\textstyle \prod_{i=1}^{n}} \log{P_k}(y_k = 1) ) min(−∏i=1nlogPk(yk=1))
此时就可以推导出那个常见的损失函数
L ( θ ) = − y log p ( x ; θ ) − ( 1 − y ) log ( 1 − p ( x ; θ ) ) \mathcal{L} (\theta) = -y\log{p(x;\theta)} - (1-y)\log(1-p(x;\theta)) L(θ)=−ylogp(x;θ)−(1−y)log(1−p(x;θ))
信息一般可以被表述为不确定性的程度, 有如下特性
一定发生的事件没有信息
很有可能发生的事件几乎没有信息
随机事件拥有更多的信息
独立事件可以增加信息——抛两次正面的骰子的信息量大于抛一次正面骰子的信息量
事件的信息可以形式化为:
I ( x ) = − log ( P ( x ) ) I(x) = - \log(P(x)) I(x)=−log(P(x))
熵用于衡量信息的多少, 被定义为:
H ( x ) = E x ∼ P ( I ( x ) ) = − E x ∼ p [ log P ( x ) ] H(x) = \mathbb{E}x \sim P(I(x)) = -\mathbb{E}x \sim p[\log{P(x)}] H(x)=Ex∼P(I(x))=−Ex∼p[logP(x)]
离散随机变量 x x x 的熵即:
H ( x ) = − ∑ x P ( x ) log P ( x ) H(x) = - {\textstyle \sum_{x}} P(x)\log{P(x)} H(x)=−∑xP(x)logP(x)
若 log \log log 以2为底, 则可以衡量编码信息的比特数多少. 在信息论中, 信息与随机性是正相关的. 高熵等于高随机性, 需要更多的比特来编码.
例如, 计算丢一枚硬币的熵:
H ( x ) = − p ( 正面 ) log 2 p ( 正面 ) − p ( 反面 ) l o g 2 p ( 反面 ) = − log 2 1 2 = 1 H(x) = -p(正面) \log_{2}p(正面) - p(反面)log_{2}p(反面) = - \log_{2}\frac{1}{2} = 1 H(x)=−p(正面)log2p(正面)−p(反面)log2p(反面)=−log221=1
则我们可以用 1 位比特来编码.
K L \mathrm{KL} KL 散度用于衡量两个分布 P , Q P,Q P,Q 的距离, 被定义为
D K L ( P ∥ Q ) = ∑ x P ( x ) ( log P ( x ) − log Q ( x ) ) D_{\mathrm{KL}}(P \parallel Q) = {\textstyle \sum_{x}} P(x)(\log{P(x)} - \log{Q(x)}) DKL(P∥Q)=∑xP(x)(logP(x)−logQ(x))
在这里 K L \mathrm{KL} KL 距离不对称. 也就是 D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P ) D_{\mathrm{KL}}(P \parallel Q) \neq D_{\mathrm{KL}}(Q \parallel P) DKL(P∥Q)=DKL(Q∥P)
熵可以衡量编码信息的最少比特数, 交叉熵则可以衡量使用 Q \mathrm{Q} Q 的错误优化编码方案对具有分布 P \mathrm{P} P 的 x x x 进行编码的最小比特数. 其被定义为:
H ( P , Q ) = − ∑ x P ( x ) log Q ( x ) H(P,Q) = - {\textstyle \sum_{x}} P(x)\log{Q(x)} H(P,Q)=−∑xP(x)logQ(x)
同时, 其可以被写为:
H ( P , Q ) = − ∑ P log Q = − ∑ P log P + ∑ P log P − ∑ P log Q = H ( P ) + ∑ P log P Q = H ( P ) + D K L ( Q ∥ P ) H(P,Q) = - \sum P\log{Q} = - \sum P\log{P} + \sum P\log{P} - \sum P\log{Q} = H(P) + \sum P\log{\frac{P}{Q}} = H(P) + D_{\mathrm{KL}}(Q \parallel P) H(P,Q)=−∑PlogQ=−∑PlogP+∑PlogP−∑PlogQ=H(P)+∑PlogQP=H(P)+DKL(Q∥P)
由于 H ( P ) H(P) H(P) 与模型参数无关, 可以视为常数. 所以最小化 K L \mathrm{KL} KL 距离等价于最小化交叉熵.
在深度学习中, P P P 一般为真实标签的分布, Q Q Q 一般为模型预测输出的分布.
我们希望能够最小化真实分布 P ( y ∣ x ) P(y \mid x) P(y∣x) 与模型输出分布 P ( y ^ ∣ x ) P(\hat{y} \mid x) P(y^∣x) 的距离, 等价于最小化两者的交叉熵, 其被定义为:
∑ y P ( y ∣ x ) log Q ( y ^ ∣ x ) = − ∑ k = 1 K y k log y k ^ {\textstyle \sum_{y}} P(y \mid x) \log{Q(\hat{y} \mid x)} = - {\textstyle \sum_{k=1}^{K}} {y_k\log{\hat{y_k}}} ∑yP(y∣x)logQ(y^∣x)=−∑k=1Kyklogyk^
最小化负对数似然函数和最小化交叉熵在形式上虽然看起来是一样的, 但是公式背后的含义不同.