random image cropping and patching(RICAP),随机裁剪四张图片并拼接构成一个新的训练图片。
RICAP 裁剪四张训练图像并拼接起来以构建新的训练图像,它随机选择图像并确定裁剪尺寸,其中最终图像的尺寸与原始图像的尺寸相同,以与四个图像的面积成比例的比率混合类标签。
与 mixup 相比,RICAP 具有三个明显的区别:在空间上混合图像、通过裁剪部分使用图像、除了块边界外不会创建原始数据集中不存在的特征。
步骤:
将四张图像的类别标签与与图像区域成正比的比率混合在一起。
从训练集中随机选择四张图像 k ∈ { 1 , 2 , 3 , 4 } k\in \{1,2,3,4\} k∈{1,2,3,4}并在左上、右上、左下和右下打补丁。
I x I_x Ix和 I y I_y Iy 分别表示训练图像的宽度和高度,服从均匀分布画出四个图像 k k k的边界位置 ( w , h ) (w,h) (w,h) 。自动获得图像 k k k的裁剪尺寸 ( w k , h k ) (w_k, h_k) (wk,hk),即 w 1 = w 3 = w w_1 = w_3 = w w1=w3=w、 w 2 = w 4 = I x − w w_2 = w_4 = I_x − w w2=w4=Ix−w、 h 1 = h 2 = h h_1 = h_2 = h h1=h2=h和 h 3 = h 4 = I y − h h_3 = h_4 = I_y − h h3=h4=Iy−h。
为了按照计算出的尺寸裁剪四个图像,随机确定裁剪区域左上角的坐标 ( x k , y k ) (x_k, y_k) (xk,yk) 为 x k ∼ U ( 0 , I x − w k ) x_k\sim \mathcal U(0, I_x − w_k) xk∼U(0,Ix−wk) 和 y k ∼ U ( 0 , I y − h k ) y_k \sim \mathcal U(0,I_y - h_k) yk∼U(0,Iy−hk)。
通过混合四个图像的独热编码类标签 c k c_k ck来定义目标标签 c c c,其比率 W i W_i Wi与它们在新图像中的面积成正比。
方案一:anywhere-RICAP。最简单,左上角可以位于任何位置。
w ∼ U ( 0 , I x ) h ∼ U ( 0 , I y ) w\sim\mathcal U(0,I_x)\\ h\sim\mathcal U(0,I_y) w∼U(0,Ix)h∼U(0,Iy)
方案二:center-RICAP。将边界位置 (w, h) 限制在修补图像的中心。
w ∼ U ( t I x , ( 1 − t ) I x ) h ∼ U ( t I y , ( 1 − t ) I y ) t ∈ [ 0 , 0.5 ] w\sim\mathcal U(tI_x,(1-t)I_x)\\ h\sim\mathcal U(tI_y,(1-t)I_y)\\ t\in[0,0.5] w∼U(tIx,(1−t)Ix)h∼U(tIy,(1−t)Iy)t∈[0,0.5]
可以看出, t t t等于0时,就是anywhere-RICAP, t t t很大时,坐标被限制在很窄的范围。这有过度平滑标签的风险不利于正确分类(每个图象都占1/4)。
方案三:corner-RICAP。将边界位置 (w, h) 限制在图像的四个角。
w ∼ 1 2 ( U ( 0 , u I x ) + U ( 1 − u ) I x , I x ) h ∼ 1 2 ( U ( 0 , u I y ) + U ( 1 − u ) I y , I y ) u ∈ [ 0 , 0.5 ] w\sim\frac{1}{2}(\mathcal U(0,uI_x)+\mathcal U(1-u)I_x,I_x)\\ h\sim\frac{1}{2}(\mathcal U(0,uI_y)+\mathcal U(1-u)I_y,I_y)\\ u\in[0,0.5] w∼21(U(0,uIx)+U(1−u)Ix,Ix)h∼21(U(0,uIy)+U(1−u)Iy,Iy)u∈[0,0.5]
u = 0.5 u=0.5 u=0.5时就是anywhere-RICAP。
(CIFAR10和CIFAR100)。
ImageNet