摘要: 本文描述对论文 Murat Sensoy, Lance Kaplan, Melih Kandemir, Evidential deep learning to quantify classification uncertainty, NIPS 2018 的理解.
一个 K K K 分类问题, 并不能保证新样本属于其中某个分类. 因此, 我们既要判断它属于哪个类别, 又要知道不确定性.
图 1. 同时计算一个字符为 1, 2, 5 的概率, 以及不确定性的概率. 当数字 1 被旋转到 6 0 ∘ − 14 0 ∘ 60^\circ-140^\circ 60∘−140∘ 时, 不确定很高.
令网络对样本的预测向量为 e = ⟨ e 1 , e 2 , … , e K ⟩ \mathbf{e} = \langle e_1, e_2, \dots, e_K \rangle e=⟨e1,e2,…,eK⟩.
又令
S = ∑ i = 1 K ( e i + 1 ) = K + ∑ i = 1 K e i (1) S = \sum_{i = 1}^K (e_i + 1) = K + \sum_{i = 1}^K e_i \tag{1} S=i=1∑K(ei+1)=K+i=1∑Kei(1)
b k = e k S (2) b_k = \frac{e_k}{S} \tag{2} bk=Sek(2) 解释为样本为第 k k k 类的概率;
u = K S (3) u = \frac{K}{S} \tag{3} u=SK(3) 解释为样本不确定的概率 (或称样本的不确定性).
注意: 分母的 S S S 的设计是为了满足
u + ∑ i = 1 K b k = 1 (4) u + \sum_{i = 1}^K b_k = 1 \tag{4} u+i=1∑Kbk=1(4)
u = k ∑ i = 1 k ( r i + 1 ) u=\frac{k}{\sum_{i=1}^k(r_i+1)} u=∑i=1k(ri+1)k,当所有 r i = 0 r_i=0 ri=0时,有 u = k / k = 1 u=k/k=1 u=k/k=1
表 1. 算例, 其中 K = 3 K = 3 K=3
No. | e \mathbf{e} e | S S S | b \mathbf{b} b | u u u |
---|---|---|---|---|
1 | ⟨ 1 , 0 , 0 ⟩ \langle 1, 0, 0 \rangle ⟨1,0,0⟩ | 4 4 4 | ⟨ 1 4 , 0 , 0 ⟩ \langle \frac{1}{4}, 0, 0 \rangle ⟨41,0,0⟩ | 3 4 \frac{3}{4} 43 |
2 | ⟨ 1 3 , 1 3 , 1 3 ⟩ \langle\frac{1}{3}, \frac{1}{3}, \frac{1}{3} \rangle ⟨31,31,31⟩ | 4 4 4 | ⟨ 1 12 , 1 12 , 1 12 ⟩ \langle \frac{1}{12}, \frac{1}{12}, \frac{1}{12} \rangle ⟨121,121,121⟩ | 3 4 \frac{3}{4} 43 |
3 | ⟨ 0 , 0 , 0 ⟩ \langle0, 0, 0 \rangle ⟨0,0,0⟩ | 3 3 3 | ⟨ 0 , 0 , 0 ⟩ \langle 0, 0, 0 \rangle ⟨0,0,0⟩ | 1 1 1 |
4 | ⟨ 9 , 9 , 9 ⟩ \langle9, 9, 9 \rangle ⟨9,9,9⟩ | 30 30 30 | ⟨ 9 30 , 9 30 , 9 30 ⟩ \langle \frac{9}{30}, \frac{9}{30}, \frac{9}{30} \rangle ⟨309,309,309⟩ | 3 30 \frac{3}{30} 303 |
注意:
疑问:
回答:
假设 α i = ⟨ α i 1 , … , α i K ⟩ \mathbf{\alpha}_i = \langle \alpha_{i1}, \dots, \alpha_{iK} \rangle αi=⟨αi1,…,αiK⟩ 为将 x i \mathbf{x}_i xi 进行分类的一个 Dirichlet 分布的参数. (吐槽: 使用一系列样本获得 K K K 个参数很正常, 但使用一个样本获得 K K K 个参数就很奇怪了.)
两个例子. 对于一个 3 分类问题.
给定一个观点, 对于第 k k k 个单项的期望概率为
p ^ k = α k S . (2) \hat{p}_k = \frac{\alpha_k}{S}. \tag{2} p^k=Sαk.(2)
总的概率为 ⟨ 13 15 , 1 15 , 1 15 ⟩ \langle \frac{13}{15}, \frac{1}{15}, \frac{1}{15}\rangle ⟨1513,151,151⟩.
疑问:
只是根据式子来计算不确定性很容易, 但绕分布这个事情没弄懂.