HLA-Face Joint High-Low Adaptation for Low Light Face Detection

文章目录

  • HLA-Face: Joint High-Low Adaptation for Low Light Face Detection(HLA-Face联合高低自适应微光人脸检测)
  • 0 Abstract
  • 1 Contribution
  • 2 Joint Adaptation for Dark Face Detection
    • 2.1 Motivation
    • 2.2 Bidirectional Low-Level Adaptation
      • Brightening
      • Noise Synthesis
      • Color Jittering
    • 2.3 Multi-Task High-Level Adaptation
      • Closing E(L) and H.
      • Closing H and D(H)
      • Enhancing E(L)
      • Final objective
  • 3 Conclusion

HLA-Face: Joint High-Low Adaptation for Low Light Face Detection(HLA-Face联合高低自适应微光人脸检测)

0 Abstract

人脸检测应用:监控视频、夜间自动驾驶等

现存问题:人脸检测严重依赖大量注释,手机数据耗时费力。

目标:将正常光照下的人脸检测模型应用于低光照场景。

难点:正常光和低光照差距大且复杂。1、像素级外观差距,光照不足、相机噪声和颜色偏差。2、正常光和低光照在对象层面的语义差异,难区分路灯、车灯、广告牌。

提出一种联合的高-低适应(HLA)框架( joint High-Low Adaptation (HLA) framework),通过双向低水平适应和多任务高水平方案。HLA-Face在不使用黑暗面孔标签下,表现出优秀的结果。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第1张图片

1 Contribution

1、提出一个低水平和高水平联合自适应的不带注释的黑暗人脸检测框架。

2、对低水平自适应,通过对低光照数据进行增亮处理和对正常光数据进行带噪声和色差的扭曲处理,建立中间态,使两个域相互靠近。

3、对高水平自适应,引入跨领域自监督学习的特征自适应,通过基于上下文和对比学习,全面拉近多个领域之间的特征距离,进一步加强了表征。

2 Joint Adaptation for Dark Face Detection

2.1 Motivation

使正常光照数据H上进行训练的人脸检测器适应于未标记的低光照数据I。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第2张图片

现有方法:

1、增强(enhancement):使微光图像变亮,并直接对其进行测试,不需要模型微调,十分灵活。像素级

2、暗化(darkening):将正常光照数据转化为暗化版本,然后在转化后的标记数据上重新训练模型。像素级

3、特征适应(feature adaptation):使用对齐、对抗学习或伪标记来直接适应模型的特征。

dark face detection具有H和L之间差距太大,且目前无法解决的问题。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第3张图片
WIDER FACE和DARK FACE包含不同像素级外观(明亮与黑暗,干净与嘈杂),不同对象和场景(照片、绘画和街景),比较WIDER FACE和DARK FACE,DARK FACE增强具有更好的可见性。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第4张图片

图e是一种高-低(HLA)适应方案,其可以共同填补像素级和特征及的空白。在L和H之间设置低级中间状态,并基于这些状态适应相应的高级表示。通过增强和暗化两种方式来减少低水平距离。

与比较 L − t o − H L-to-H LtoH H − t o − L H-to-L HtoL单方向转化比较,本实验的双向转化$L-to-E(L) 和 和 H-to-D(H)$不仅可以减轻适应难度,而且为特征级提供了更多工具,通过将多个状态的特征空间相互推近,降低了高能级距离。

使用E(·)对图像进行处理,然后应用自适应的人脸检测器。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第5张图片

高-低适应(HLA)联合框架用于深色人脸检测:低水平适应创建中间状态填补了差距。对低光照数据双向进行噪声和颜色偏移扭曲,在构建的中间状态的基础上,利用多任务跨域自监督学习来填补高层次的差距。

2.2 Bidirectional Low-Level Adaptation

HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第6张图片

低水平适应的挑战:

1、高阶间隙的并存,它会混淆像素级的转化模型。图5是将H转化为L的方法效果。相对于WIDER FACE,DARK FACE包含许多路灯、车灯和招牌,因此CUT会在人体上产生奇怪的光,GycleGAN会在人脸上产生路灯。MUNIT可以区分内容和风格,但不能将图像完全变暗,视觉效果离L很远。

2、低光照本身增强困难。目前低光照增强主要针对于人类视觉而非机器视觉,例如:通过绘制黑色边缘,将有噪声的部分保持在较暗的位置,或者通过增强对比度来提高综合视觉质量,这些方法会损害高层次的检测性能,

DARK FACE中图像存在强烈的噪声和色差,现有的去噪方法和颜色重建方法的鲁棒性都不足以处理这种极端情况。

低水平适应挑战的解决方案:双向低水平适应方案

低光照分解相关因素分为三方面:光照、噪声和色差。

去噪和颜色矫正困难,但增加噪声和反应用颜色偏差相对容易,因此将L增亮到E(L),将H用噪声和色偏变成D(H)。与L和H相比,E(L)和D(H)更相似,所以让L和H相互靠近,缓解适应困难,并通过构造弱光分解的具体组件,使传输模型不会受到域间语义差距的干扰。

Brightening

本实验在不去噪或颜色重建的情况下调整光照,并进行防曝光过度和不足的处理,以解决低光照图像照度不均匀的问题。

该模块采用基于非线性曲线映射,由迭代二次曲线LE(·)组成:

L E ( x , A ) = x + A x ( 1 − x ) LE(x,A) = x + Ax(1 - x) LE(x,A)=x+Ax(1x)

L E n = L E ( L E n − 1 ; A n ) LE_n = LE(LE_{n-1}; A_n) LEn=LE(LEn1;An)

L E 0 LE_0 LE0使输入图像, L E n LE_n LEn是第n次迭代的结果, A n A_n An是神经网络估计的像素级三通道adjustment map,曲线映射不会引入额外的噪声或伪影。

本实验采用对称跳跃连接的7层CNN和相应的训练目标。使用强关照增强,通过加倍式 L E ( x , A ) = x + A x ( 1 − x ) LE(x,A) = x + Ax(1 - x) LE(x,A)=x+Ax(1x)的迭代次数和扩大曲线估计网络。模型可以增加更高亮的图像,缺点可能是噪声和颜色偏差,这个缺点交给 H → D ( H ) H → D(H) HD(H)解决。

Noise Synthesis

将E(L)和H之间的gap进一步分解为颜色和噪声,通过分离颜色,本实验通过颜色来指导颜色合成过程。
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第7张图片

首先使用d = 25和 σ = 75 σ = 75 σ=75的强双边滤波器,将模糊的 E ( L ) b l u r E(L)_{blur} E(L)blur作为color guidance,训练Pix2Pix从 E ( L ) b l u r E(L)_{blur} E(L)blur模糊转移到 E ( L ) E(L) E(L),使用同样的方法模糊 H H H,并使用训练好的Pix2Pix添加噪声,图5中, H n o i s e H_{noise} Hnoise成功模仿了 E ( L ) E(L) E(L)的噪声模式,
HLA-Face Joint High-Low Adaptation for Low Light Face Detection_第8张图片

Color Jittering

颜色分布差异处理:将 D ( H ) D(H) D(H)的颜色分布与 E ( L ) E(L) E(L)的颜色分布相匹配,根据统计分析,将Jittering范围设置为亮度(0.4,1.2),对比度(0.6,1.4),饱和度(0.6,1.4),色相(0.8,1.2)。

2.3 Multi-Task High-Level Adaptation

大多数特征自适应方法采用对齐、伪标记和对抗学习,但对齐、伪标签不能很好处理巨大的差距,对抗学习不稳定。

通过强制跨域共享自监督学习分类器,将特征强制映射到相同的高维子空间,关闭高水平gap。

为了推动 E ( L ) E(L) E(L) H H H D ( H ) D(H) D(H)相互靠近,首先通过跨域上下文的自我监督学习关闭 E ( L ) − H E(L)-H E(L)H,然后通过跨域对比学习关闭 H − D ( H ) H-D(H) HD(H),通过单域对比学习进一步增强了 E ( L ) E(L) E(L)的表示, 整个改编以多任务的方式进行。

Closing E(L) and H.

Context-based self-supervised learning 设计 pretext tasks,通过pretext tasks模型可以学习理解物体的空间内容,本实验发现单独使用 j i g s a w jigsaw jigsaw效果最好。

3 × 3 3 × 3 3×3个patch组装成一幅完整图像,并设置pathc排列数为30,成为30个分类问题, P j i g P_{jig} Pjig为排列标号, L c L_c Lc为交叉熵损失。

L j i g E ( L ) = L c ( F j i g E ( L ) , p j i g E ( L ) ) L^{E(L)}_{jig} = L_c(F^{E(L)}_{jig}, p^{E(L)}_{jig}) LjigE(L)=Lc(FjigE(L),pjigE(L))
L j i g H = L c ( F j i g H , p j i g H ) L^H_{jig} = L_c(F^H_{jig}, p^H_{jig}) LjigH=Lc(FjigH,pjigH)

F j i g F_{jig} Fjig为从对应域中提取的特征,E(L)和H共享classification heads,迫使语义特征映射到相同空间,消除高层gap,关闭E(L)和H的最终损失为:

L E ( L ) ↔ H = L j i g E ( L ) + L j i g H L_{E(L)↔H} = L^{E(L)}_{jig} + L^H_{jig} LE(L)H=LjigE(L)+LjigH

Closing H and D(H)

给定一查询 v v v,确定是 v + v^+ v+(positive pair)还是 v − = v − 1 , v − 2 . . . , v − N v^-={v ^{− 1}, v^{− 2}..., v^{−N}} v=v1,v2...,vN(negative pair),利用点积度量相似度:

L q ( v , v + , v − ) = − l o g [ σ ( v , v + ) σ ( v , v + ) + ∑ n = 1 N σ ( v , v n − ) ] L_q(v, v^+, v^−) = -log[ \frac{σ(v, v^+)}{σ(v, v^+) + \sum^{N}_{n=1} σ(v, v^−_n )}] Lq(v,v+,v)=log[σ(v,v+)+n=1Nσ(v,vn)σ(v,v+)]

σ ( x , y ) = e x p ( x ⋅ y / τ ) σ(x, y) = exp(x · y/τ ) σ(x,y)=exp(xy/τ)

τ τ τ是温度超参数。

缩短 H H H D ( H ) D(H) D(H)之间的距离,利用了对比学习使正样本更接近的行为,将 H H H的positive pair作为 D ( H ) D(H) D(H)的patch。

L ~ H ↔ D ( H ) = L q ( H , D ( H ) + , H − ) + L q ( D ( H ) , H + , D ( H ) − ) \widetilde{L}_{H↔D(H)} = L_q(H, D(H)^+, H^−)+L_q(D(H), H^+, D(H)^−) L HD(H)=Lq(H,D(H)+,H)+Lq(D(H),H+,D(H))

提高 H H H D ( H ) D(H) D(H)之间的特征相似度,并可以缩小高阶差距。

对H和D(H)本身进行了单域对比学习,使特征更好,将以上四项损失简化为D(·)作为增额的一部分:

L H ↔ D ( H ) = L q ( D i ∗ ( H ) , D j ∗ ( H ) + , D k ∗ ( H ) − ) L_{H↔D(H)} = L_q(D^∗_i(H), D^∗_j(H)^+, D^∗_k(H)^−) LHD(H)=Lq(Di(H),Dj(H)+,Dk(H))

D ∗ ( H ) D^∗(H) D(H)有50%的概率是H, 50%的概率是D(H)。

Enhancing E(L)

通过对比学习增强E(L)上的特征是有益的:

L E ( L ) ↑ = L q ( E ( L ) , E ( L ) + , E ( L ) − ) L_{E(L)↑} = L_q(E(L), E(L)^+, E(L)^−) LE(L)=Lq(E(L),E(L)+,E(L))

Final objective

本实验模型以多任务的方式学习。 表示 L d e t L_{det} Ldet为检测损耗,最终目标为:

L = λ d e t L d e t + λ E ( L ) ↔ H L E ( L ) ↔ H + λ H ↔ D ( H ) L H ↔ D ( H ) + λ E ( L ) ↑ L E ( L ) ↑ L = λ_{det}L_{det} + λ_{E(L)↔H}L_{E(L)↔H} + λ_{H↔D(H)}L_{H↔D(H)} + λ_{E(L)↑}L_{E(L)↑} L=λdetLdet+λE(L)HLE(L)H+λHD(H)LHD(H)+λE(L)LE(L)

λ s λs λs是平衡不同损耗的超参数。

3 Conclusion

设计一个针对于dark face detection的高低层次联合适应框架,提出一种低层次的双向像素转换pipline,以及一种基于自监督学习的高层次多任务自适应策略,本实验框架显示了联合高低适应的潜力,并可以启发其他相关的低光照高水平视觉任务。

你可能感兴趣的:(图像处理,计算机视觉,图像处理,深度学习)