分类数据增强论文“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”

ICCV 2019的论文。

Regional Dropout策略已被证明可以提高分类任务的准确性。这种方法用于引导模型去关注对象中辨别能力较弱的部分,比如人的腿部而不是人的头部,从而使网络去有更强的概括能力,并且可以获得更好的object定位能力。另一方面,现有的regional dropout方法只是简单的放置一个黑色的patch或者噪声块(比如Cutout),这样就导致了信息损失和信息的不准确性。作者用的方法把Mixup和Cutout结合起来了,切割一块patch并且粘贴上另外一张训练图片相同地方的patch,对应的label也按照patch大小的比例进行混合。
分类数据增强论文“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”_第1张图片
思路上还是比较容易理解的。
假设 x ∈ R W × H × C x\in\mathbb{R}^{W\times H\times C} xRW×H×C y y y代表的训练的输入图像和标签值。生成的新的训练样本 ( x ~ , y ~ ) (\tilde{x},\tilde{y}) (x~,y~)通过训练样本 ( x A , y A ) (x_A,y_A) (xA,yA), ( x B , y B ) (x_B,y_B) (xB,yB)获得,操作如下:
x ~ = M ⊙ x A + ( 1 − M ) ⊙ x B \tilde{x}=M\odot x_A+(1-M)\odot x_B x~=MxA+(1M)xB
y ~ = λ y A + ( 1 − λ ) y B \tilde{y}=\lambda y_A+(1-\lambda)y_B y~=λyA+(1λ)yB
其中 M ∈ { 0 , 1 } W × H M\in\{0,1\}^{W\times H} M{0,1}W×H代表着一个二值的mask,而 λ \lambda λ从Beta分布 B e t a ( α , α ) Beta(\alpha,\alpha) Beta(α,α)中获得, α = 1 \alpha=1 α=1时相当于 λ \lambda λ从(0,1)间的均与分布中选取。
在二值mask M中,首先随机选择bounding box框 B = ( r x , r y , r w , r h ) \mathbf{B}=(r_x,r_y,r_w,r_h) B=(rx,ry,rw,rh)用来确定 x A x_A xA x B x_B xB中的crop region。 x A x_A xA B \mathbf{B} B的部分被移除,填入对应的 x B x_B xB中的部分。
抽样也比较简单,抽取一个成比例的矩形框即可
r x ∼ Unif ( 0 , W ) , r w = W 1 − λ r_x\sim \text{Unif}(0,W), r_w=W\sqrt{1-\lambda} rxUnif(0,W),rw=W1λ
r y ∼ Unif ( 0 , H ) , r h = H 1 − λ r_y\sim \text{Unif}(0,H), r_h=H\sqrt{1-\lambda} ryUnif(0,H),rh=H1λ
从而 r w r h W H = 1 − λ \frac{r_wr_h}{WH}=1-\lambda WHrwrh=1λ
CutMix学到了什么信息?
Cutout中,CAM显示用于存在没有使用的pixels,关注的less discriminative的特征就更inefficient;Mixup中虽然用到了全图的信息,但是引入了不自然的伪影。Mixup也会出现不知道选择哪个模块作为recognition的线索的问题。
而CutMix可以更准确的定位两个类别中的cue。如下图所示。
分类数据增强论文“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”_第2张图片
结果上主要还是和mixup以及cutout相比较。
分类数据增强论文“CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features”_第3张图片

你可能感兴趣的:(图像分类,分割和显著性)