如果以每个像素为中心生成锚框,则会导致锚框数量极其大。如果想要减少锚框,可以考虑使用不同尺度的锚框来检测不同大小的物体。即当使用较小的锚框检测较小的物体时,可以采样更多的区域,而对于较大的物体,可以采样较少的区域。
通过定义卷积层输出的二维特征图的形状,可以确定任何图像上均匀采样锚框的中心。由于锚框(anchors
)的中心分布于特征图(fmap
)上的所有单位,因此这些中心必须根据其相对空间位置在任何输入图像上均匀分布。以这些均匀采样的像素为中心,将会生成大小为s
(假设列表s
的长度为1)且宽高比(ratios
)不同的锚框。
!pip install git+https://github.com/d2l-ai/d2l-zh@release # installing d2l
!pip install matplotlib_inline
!pip install matplotlib==3.0.0
%matplotlib inline
import torch
from d2l import torch as d2l
img = d2l.plt.imread('/content/drive/MyDrive/data/dogcat.png')
h,w = img.shape[:2]
h,w
#d2l.plt.imshow(img)
def display_anchors(fmap_w,fmap_h,s):
d2l.set_figsize()
fmap = torch.zeros((1,10,fmap_h,fmap_w))
anchors = d2l.multibox_prior(fmap,sizes=s,ratios=[1,2,0.5])
bbox_scale = torch.tensor((w,h,w,h))
d2l.show_bboxes(d2l.plt.imshow(img).axes,anchors[0]*bbox_scale)
display_anchors(fmap_w=4,fmap_h=4,s=[0.15])
display_anchors(fmap_w=2,fmap_h=2,s=[0.4])
display_anchors(fmap_w=1,fmap_h=1,s=[0.8])
运行结果:
假设有c张形状为h×w的特征图,在生成多尺度的锚框后,每个锚框都根据真实值边界框来标记了类和偏移量。 在当前尺度下,目标检测模型需要预测输入图像上hw组锚框类别和偏移量,其中不同组锚框具有不同的中心。
假设此处的c张特征图是CNN基于输入图像的正向传播算法获得的中间输出。 既然每张特征图上都有hw个不同的空间位置,那么相同空间位置可以看作含有c个单元。 因此,可以将特征图在同一空间位置的c个单元变换为使用此空间位置生成的a个锚框类别和偏移量。 即用输入图像在某个感受野区域内的信息,来预测输入图像上与该区域位置相近的锚框类别和偏移量。
当不同层的特征图在输入图像上分别拥有不同大小的感受野时,它们可以用于检测不同大小的目标。即可以利用深层神经网络在多个层次上对图像进行分层表示,从而实现多尺度目标检测。
该数据集由一些背景图片的随机位置上放一张香蕉的图像组成,并在图片上为香蕉标记了边界框。部分图片如下所示:
import pandas as pd
import torchvision
import os
d2l.DATA_HUB['banana-detection'] = (
d2l.DATA_URL + 'banana-detection.zip',
'5de26c8fce5ccdea9f91267273464dc968d20d72')
#通过read_data_bananas函数,我们读取香蕉检测数据集。该数据集包括一个的CSV文件,
#内含目标类别标签和位于左上角和右下角的真实边界框坐标。
def read_data_bananas(is_train=True):
"""读取香蕉检测数据集中的图像和标签"""
data_dir = d2l.download_extract('banana-detection')
csv_fname = os.path.join(data_dir, 'bananas_train' if is_train
else 'bananas_val', 'label.csv')
csv_data = pd.read_csv(csv_fname)
csv_data = csv_data.set_index('img_name')
images, targets = [], []
for img_name, target in csv_data.iterrows():
images.append(torchvision.io.read_image(
os.path.join(data_dir, 'bananas_train' if is_train else
'bananas_val', 'images', f'{img_name}')))
# 这里的target包含(类别,左上角x,左上角y,右下角x,右下角y),
# 其中所有图像都具有相同的香蕉类(索引为0)
targets.append(list(target))
return images, torch.tensor(targets).unsqueeze(1) / 256
class BananasDataset(torch.utils.data.Dataset):
"""一个用于加载香蕉检测数据集的自定义数据集"""
def __init__(self, is_train):
self.features, self.labels = read_data_bananas(is_train)
print('read ' + str(len(self.features)) + (f' training examples' if
is_train else f' validation examples'))
def __getitem__(self, idx):
return (self.features[idx].float(), self.labels[idx])
def __len__(self):
return len(self.features)
def load_data_bananas(batch_size):
"""加载香蕉检测数据集"""
train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),
batch_size, shuffle=True)
val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),
batch_size)
return train_iter, val_iter
#小批量的形状为(批量大小,m,5),其中m是数据集的任何图像中边界框可能出现的最大数量
#5指的是每个物体的标签和对应的矩形框的四个坐标
#对于香蕉数据集而言,由于每张图像上只有一个边界框,因此m=1
batch_size = 32
train_iter, _ = load_data_bananas(batch_size)
batch = next(iter(train_iter))
batch[0].shape, batch[1].shape#batch[1]应该就是标签的批量
imgs = (batch[0][0:10].permute(0,2,3,1))/255
edge_size = 256
axes = d2l.show_images(imgs,2,5,scale=2)
for ax,label in zip(axes,batch[1][0:10]):
d2l.show_bboxes(ax,[label[0][1:5] * edge_size],colors='w')#label[0][1:5]估计是框的坐标