原文 : Super-Identity Convolutional Neural Network for Face Hallucination
Face Hallucination 為一將人臉影像從低解析度(low resolution)轉變為高解析度(high resolution)的過程,以往方法大多考量的是輸出影像是否清晰、逼真(visual quality),沒有考量影像是否能夠identity recovery。
然而,現實生活中除了轉換為高解析度影像外亦會有在還原影像上辨識身分的需求,如2016年暑假在紐約時剛好遇到曼哈頓的爆炸案,嫌疑犯的現場照片因為解析度過低,無法清楚辨識。
最大的技術角度在於放大的目的,為了最大化人臉辨識的效果,並彌平高解析度以及低解析度人臉之間常見的特徵值差異,與其他GAN-based方法比較,會保留更多細節。
模型架構可以分為兩個部分:hallucination model - C N N H CNN_{H} CNNH 以及 recognition network - C N N R CNN_{R} CNNR,分別處理兩個任務,而因為兩種模型會交互影響,文中亦提到訓練時遇到的問題與對應的解決方法以及觀察,最後在以 visual quality、identity recovery、identity recognizability 三種項目作為比較以往模型在 Face Hallucination 的表現標準。
Face Hallucination Network 中的 DB 指的是 ref [10] : Densely Connected Convolutional Networks 中的 Dense Block :
如上圖所示,每一個 DB 中總共會有五次 BN-ReLU-Conv 的過程,每一次的輸入都是上一次的所有輸出,其核心價值是 create short paths from early layers to later layers ,因為 Max Pooling 等降維運算會使 information flow 難以傳遞至較深的 layer ,而產生 vanishing-gradient 的問題,而 DB 中的輸入保留了淺層資訊,能夠減輕其效應,亦能有效利用 feature ,減少需要參數量,想法上借鑑於 Residual Networks (ResNets) ,但在表現上較好,其中 C N N H CNN_{H} CNNH 的 loss 記做 L S R L^{SR} LSR,即兩張影像圖素的差異。
R e s i d u a l N e t w o r k s : x l = H l ( x l − 1 ) + x l − 1 {Residual~Networks ~: ~x_{l} = H_{l}(x_{l-1})} + x_{l-1} Residual Networks : xl=Hl(xl−1)+xl−1
D e n s e l y C o n n e c t e d N e t w o r k s : x l = H l ( [ x 0 , x 1 , . . . , x l − 1 ] ) {Densely~Connected~Networks ~ : ~x_{l} = H_{l}([x_{0}, x_{1}, ..., x_{l-1}])} Densely Connected Networks : xl=Hl([x0,x1,...,xl−1])
C N N R CNN_{R} CNNR 的作用為使 Face Hallucination 的輸出能夠接近原來 High Resolution 的結果,特別的地方是 loss 採取的策略有別於 C N N H CNN_{H} CNNH pixel-wise 的方式,回歸到問題本身,目標應該聚焦在具備 圖像逼真程度 以及 辨識身分能力 的,分別對應到 ref [18] : SphereFace: Deep Hypersphere Embedding for Face Recognition 提及的 A-softmax Loss (記做: L F R L^{FR} LFR) 以及 ref [12] : Perceptual losses for real-time style transfer and super-resolution 提及的 Perceptual Loss ( 記做: L S I L^{SI} LSI)。
文中的 Perceptual Loss 除了參考文獻內的內容亦將其 feature 做正規化:
L F R ( I i ) = − l o g ( e ∣ ∣ C N N R ( I i ) ∣ ∣ φ ( m Θ y i ) e ∣ ∣ C N N R ( I i ) ∣ ∣ φ ( m Θ y i ) + ∑ j ≠ y i e ∣ ∣ C N N R ( I i ) ∣ ∣ φ ( m Θ y j ) ) {L^{FR}(I_{i}) = -log(\dfrac{e^{||CNN_{R}(I_{i})||{\varphi(m \boldsymbol\Theta_{yi})}}}{e^{||CNN_{R}(I_{i})||{\varphi(m \boldsymbol\Theta_{yi})}}+\displaystyle \sum_{j \neq y_{i}}e^{||CNN_{R}(I_{i})||{\varphi(m \boldsymbol\Theta_{yj})}}})} LFR(Ii)=−log(e∣∣CNNR(Ii)∣∣φ(mΘyi)+j̸=yi∑e∣∣CNNR(Ii)∣∣φ(mΘyj)e∣∣CNNR(Ii)∣∣φ(mΘyi))
參考 SphereFace的翻译,解读以及训练 ,predict label 的數值取決於 W T x + b {W^Tx+b} WTx+b,其中 W {W} W 可視為 model 的參數向量,與輸入向量 x {x} x 之間夾角關係可generize成 φ ( Θ ) {\varphi( \boldsymbol\Theta)} φ(Θ) 的關係,而不同label之間的參數向量之間在 A-sofxmax 中可視為落在一多維度球面(hypersphere),超球面的維度取決於 label 種類數量,而 m 參數存在的意義在於限縮 Θ {\boldsymbol\Theta} Θ 範圍,將每一參數向量在超球面分布的中心分佈變的集中,使每一 label 在超球面分佈重疊成分降低,進而使分類效果變好。
一開始的 optimization object 為: min θ C N N H θ C N N R 1 n ∑ i = 1 n L S R ( I i L R , I i H R ) + α L S I ( I i L R , I i H R ) + β L F R ( I i S R , I i H R ) {\displaystyle \min_{\theta _{CNN_{H}}~ \theta _{CNN_{R}}} \dfrac{1}{n} \displaystyle \sum_{i = 1}^{n} L^{SR}(I_{i}^{LR},I_{i}^{HR})} + \alpha L^{SI}(I_{i}^{LR},I_{i}^{HR}) + \beta L^{FR}(I_{i}^{SR},I_{i}^{HR}) θCNNH θCNNRminn1i=1∑nLSR(IiLR,IiHR)+αLSI(IiLR,IiHR)+βLFR(IiSR,IiHR)
α , β {\alpha ,~\beta} α, β 分別代表了考量其效應的自訂權重參數。
在 Approach I 中,因為訓練一開始的 Face Hallucination Network 未能輸出 high visual quality 的影像,在 learning 過程中不斷變化,進而使辨識模型難以確立輸出答案,使得整體模型的訓練相當不穩定。
在 Approach II 中,optimization object 為: min θ C N N H θ C N N R 1 n ∑ i = 1 n L S R ( I i L R , I i H R ) + α L S I ( I i L R , I i H R ) {{\displaystyle \min_{\theta _{CNN_{H}}~ \theta _{CNN_{R}}} \dfrac{1}{n} \displaystyle \sum_{i = 1}^{n} L^{SR}(I_{i}^{LR},I_{i}^{HR})} + \alpha L^{SI}(I_{i}^{LR},I_{i}^{HR}) } θCNNH θCNNRminn1i=1∑nLSR(IiLR,IiHR)+αLSI(IiLR,IiHR)
將轉換影像的過程與分類分開進行,但是會發生 Hallucination Domain 與 High Resolution Domain 之間仍然存在 large margin 的狀況,如下圖所示:
在 Approach III 中,文中引進交替訓練的方法,如下圖所示:
在每一個 patch 中交替訓練,能增加收斂的能力,進而解決 Dynamic Domain Divergence Problem 。
然而,與 Generative Adversarial Network 不同的地方是 ,SICNN 影像生成與辨識的模型之間的關係並非是 Adversarial 而是 Cooperative,共同 minimize 對應到的 optimized object loss。