提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
最近正在学习yolov5
算法,以yolov5s
模型为例,其中的focus
模块在被改成了一个kernel_size=6
的卷积层,为什么较大的卷积核进行卷积比focus
模块更有效呢?
Foucs
模块使将原本的feature map
按下图方式分成四份,再concat
到一起进行一次卷积.
这里是Focus
模块的源码:
class Focus(nn.Module):
# Focus wh information into c-space
def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
# ch_in, ch_out, kernel, stride, padding, groups
super().__init__()
self.conv = Conv(c1 * 4, c2, k, s, p, g, act)
def forward(self, x): # x(b,c,w,h) -> y(b,4c,w/2,h/2)
return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2],
x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))
为了理解torch.cat()
中拼接部分具体操作,我们需要自己做个小实验验证一下:
import torch
import numpy as np
import torch.nn as nn
# foucs 结构
a = torch.tensor([[[[0,1],[2,3]],
[[0,1],[2,3]],
[[0,1],[2,3]],
]])
print(a.size()) # torch.Size([1, 3, 2, 2]) (N,C,W,H)
print(a[...].size()) # ...第0维上所有都取 torch.Size([1, 3, 2, 2])
print(a[...,:2,:2].size()) # :2 取该维度上前两位 torch.Size([1, 3, 2, 2])
print(a[...,::2,::2].size()) # ::2 取该维度上总数/2 torch.Size([1, 3, 1, 1])
print(a[...,::2,::2].size(), '\n', a[...,::2,::2]) # torch.Size([1, 3, 1, 1]) 取0
print(a[...,1::2,::2].size(), '\n', a[...,1::2,::2]) # torch.Size([1, 3, 1, 1]) 取2
print(a[...,::2,1::2].size(), '\n', a[...,::2,1::2]) # torch.Size([1, 3, 1, 1]) 取1
print(a[...,1::2,1::2].size(), '\n', a[...,1::2,1::2]) # torch.Size([1, 3, 1, 1]) 取3
b = torch.cat([a[...,::2,::2], a[...,1::2,::2]
,a[...,::2,1::2], a[...,1::2,1::2]],1) # 最后的1代表在通道数上拼接
print(b.size())# torch.Size([1, 12, 1, 1])
print(b)
# tensor([[[[0]], [[0]],[[0]],[[2]],[[2]], [[2]],[[1]],[[1]],[[1]],[[3]],[[3]],[[3]]]])
a.shape
由[1, 3, 2, 2]
变至[1, 12, 1, 1]
,通道数增大四倍,w与h缩小两倍.
a[...,::2,::2]
取左上角
a[...,1::2,::2]
取左下角
a[...,::2,1::2]
取右上角
a[...,1::2,1::2]
取右下角
再通过torch.cat()
其在第二个维度上堆叠起来,在对其进行kernel_size=3,stride=1
卷积特征提取.
在github
上有人问过focus
对mAP的影响,原作者是这么回答的
大意是Foucs()
模块是为了减少了FLOPs
并增加计算速度设计的,并不会增加mAP
;另一方面1个foucs
模块代替了3个yolov3/4层
.
我们来计算一下focus
的参数量与计算量(忽略bias
)
F L O P s = ( 3 ∗ 4 ) ∗ 32 ∗ 3 ∗ 3 ∗ 320 ∗ 320 = 353894400 FLOPs = (3*4)*32*3*3*320*320=353894400 FLOPs=(3∗4)∗32∗3∗3∗320∗320=353894400
P a r a m = 3 ∗ 4 ∗ 32 ∗ 3 ∗ 3 = 3456 Param =3*4*32*3*3=3456 Param=3∗4∗32∗3∗3=3456
再来计算一下卷积层的参数量与计算量(忽略bias
)
F L O P s = 3 ∗ 32 ∗ 3 ∗ 3 ∗ 320 ∗ 320 = 88473600 FLOPs = 3*32*3*3*320*320=88473600 FLOPs=3∗32∗3∗3∗320∗320=88473600
P a r a m = 3 ∗ 32 ∗ 3 ∗ 3 = 864 Param =3*32*3*3=864 Param=3∗32∗3∗3=864
一个Focus
的参数量与计算量大约是conv
的4倍,但一个focus结构可以替换3个conv层,所以参数量与计算量都是减少的.
再来计算一下k=6
卷积层的参数量与计算量(忽略bias
)
F L O P s = 3 ∗ 32 ∗ 6 ∗ 6 ∗ 320 ∗ 320 = 35389440 FLOPs = 3*32*6*6*320*320=35389440 FLOPs=3∗32∗6∗6∗320∗320=35389440
P a r a m = 3 ∗ 32 ∗ 6 ∗ 6 = 3456 Param =3*32*6*6=3456 Param=3∗32∗6∗6=3456
所以k=6
卷积层在理论上等价于focus结构
那么focus
虽然降低了计算成本,但是其采样方式会不会破坏图片的空间信息或者混淆GT框的边界坐标呢?
将空间信息堆叠到通道空间中,可能会减少一个像素的回归信息价值,但对于大多数实例而言回归精度都不会接近一个像素,因此focus
的采样方式并对回归精度产生影响极小.另外focus结构的位置问题,在分类网络中放在后面可能会更有用,但是在目标检测模型中对[email protected]:0.95
的影响更大,[email protected]
影响较小.
对于focus的采样方式是否会破坏原有图像的空间信息,我们只要将focus的采样的4个模块输出来看一看即可.
import cv2
import numpy as np
img = cv2.imread(r'C:/Users/HP/Desktop/p.jpg')
# print(img.shape,"\n",img)
# img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
new_img = cv2.resize(img, (320, 320))
cv2.imwrite(r'./0.jpg',new_img)
img = img.transpose(2,1,0)
img = np.expand_dims(img, 0)
print(img.shape) # (1, 3, 640, 640)
# cv2.imshow('img',img)
# cv2.wimgitKey(0)
# print(img[...,::2,::2].size(), '\n', img[...,::2,::2])
# print(img[...,1::2,::2].size(), '\n', img[...,1::2,::2])
# print(img[...,::2,1::2].size(), '\n', img[...,::2,1::2])
# print(img[...,1::2,1::2].size(), '\n', img[...,1::2,1::2])
new_img = img[...,::2,::2]
print(new_img.shape) # (1, 3, 160, 160)
new_img = new_img[0]
print('shape',new_img.shape) # shape (3, 160, 160)
new_img = new_img.transpose(2,1,0) # 维度转换
cv2.imwrite(r'./1.jpg',new_img)
new_img = img[...,1::2,::2]
print(new_img.shape) # (1, 3, 320, 320)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./2.jpg',new_img)
new_img = img[...,::2,::2]
print(new_img.shape) # (1, 3, 320, 320)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./3.jpg',new_img)
new_img = img[...,1::2,1::2]
print(new_img.shape) # (1, 3, 320, 320)
new_img = new_img[0]
new_img = new_img.transpose(2,1,0)
cv2.imwrite(r'./4.jpg',new_img)
img1 = cv2.imread(r'./1.jpg')
img2 = cv2.imread(r'./2.jpg')
img3 = cv2.imread(r'./3.jpg')
img4 = cv2.imread(r'./4.jpg')
h = np.hstack((img1, img2, img3, img4))
cv2.imwrite(r'./5.jpg',h)
原图3x640x640
:
focus
模块下采样后四张图片3x320x320
:
通过两幅图片对比得知,经过focus
下采样得到的特征图并不会丢失特征信息,对语义的影响并不大,且下采样后的每一个像素点的感受野都增大了,与卷积层的下采样方式一样,没有丢失原图的信息.
yolov5后期将focus结构又替换成了k=6
的卷积层,我猜想可能是因为这样的方式来代替3个conv层
的原因是在提高了运算速度前提下,运用较大的卷积核增大了感受野,在性能方面可能会获得了一定的提升.
另一方面,考虑到focus的切片处理,与卷积相比,多出了几次运算concat
操作,可能会增加一定的内存开销.
Focus
可以被看作一种下采样方式,与transforms.Resize
相比哪种方式的效果更好,或是可以在调整图片大小时将两种方式混用,在以后的实验中可以一试.
#------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2022.6.26
更正一下focus
的感受野,与6x6
的conv
感受野大小相同,并不是kener_size
设为6会增大感受野
4个3x3
感受野相加相当于原图上6x6
,所以focus与6x6的conv在计算量,参数量和感受野应该是相同的,因此理论上相同。