李沐动手学深度学习V2-目标检测数据集

一.目标检测数据集

1. 数据集介绍

目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集,为了快速测试目标检测模型,收集并标记了一个小型数据集。 首先拍摄了一组香蕉的照片,并生成了1000张不同角度和大小的香蕉图像,然后在一些背景图片的随机位置上放一张香蕉的图像,最后在图片上为这些香蕉标记了边界框。

2. 下载数据集并定义数据集

该数据集包括一个的CSV文件,内含目标类别标签和位于左上角和右下角的真实边界框坐标。

import torch
import os
import pandas as pd
import torchvision
import d2l.torch
#@save
d2l.torch.DATA_HUB['banana-detection'] = (
    d2l.torch.DATA_URL + 'banana-detection.zip',
    '5de26c8fce5ccdea9f91267273464dc968d20d72')
def read_data_bananas(is_train=True):
    data_dir = d2l.torch.download_extract('banana-detection')
    print(data_dir)
    csv_fpath = os.path.join(data_dir,'bananas_train'if is_train else 'bananas_val','label.csv')
    csv_file = pd.read_csv(csv_fpath)
    csv_file = csv_file.set_index('img_name')
    images,targets=[],[]
    for image_name,target in csv_file.iterrows():
        images.append(torchvision.io.read_image(path=os.path.join(data_dir,'bananas_train'if is_train else 'bananas_val','images',f'{image_name}')))
        targets.append(list(target))
    return images,torch.tensor(targets).unsqueeze(1)/256
images,targets = read_data_bananas()
targets[0]
targets.shape

通过使用read_data_bananas()函数读取图像和标签,以下BananasDataset类别将允许创建一个自定义Dataset实例来加载香蕉检测数据集。

"""一个用于加载香蕉检测数据集的自定义数据集"""
class BananasDataset(torch.utils.data.Dataset):
    def __init__(self,is_train):
        self.features,self.labels = read_data_bananas(is_train)
    def __getitem__(self, item):
        return (self.features[item].float(),self.labels[item])
    def __len__(self):
        return len(self.features)

定义load_data_bananas()函数,为训练集和测试集返回两个数据加载器实例,对于测试集,无须按随机顺序读取它。

"""加载香蕉检测数据集"""
def load_data_bananas(batch_size):
    train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),batch_size,shuffle=True)
    val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),batch_size,shuffle=False)
    return train_iter,val_iter

3. 加载数据集

图像的小批量的形状为(批量大小、通道数、高度、宽度) ,标签的小批量的形状为(批量大小, ,5),其中 是数据集的任何图像中边界框可能出现的最大数量
小批量计算虽然高效,但它要求每张图像含有相同数量的边界框,以便放在同一个批量中。 通常来说,图像可能拥有不同数量个边界框;因此,在达到 之前,边界框少于 的图像将被非法边界框填充。 这样,每个边界框的标签将被长度为5的数组表示。 数组中的第一个元素是边界框中对象的类别,其中-1表示用于填充的非法边界框。 数组的其余四个元素是边界框左上角和右下角的( , )坐标值(值域在0到1之间)。 对于香蕉数据集而言,由于每张图像上只有一个边界框,因此 =1 。

batch_size,edge_size = 32,256
train_iter,valid_iter = load_data_bananas(batch_size)
batch = next(iter(train_iter))
batch[0].shape,batch[1].shape

4. 数据集图片展示

展示10幅带有真实边界框的图像,可以看到在所有这些图像中香蕉的旋转角度、大小和位置都有所不同。 当然这只是一个简单的人工数据集,实践中真实世界的数据集通常要复杂得多。

#permute()函数可以同时多次交换tensor的维度,如:b = a.permute(0,2 ,1) 将a的维度索引1和维度索引2交换位置
imgs = (batch[0][0:10].permute(0,2,3,1))/255 #除以255是为了对图片中每一个像素进行标准化
axes = d2l.torch.show_images(imgs,2,5,scale=2)
d2l.torch.bbox_to_rect()
for axe,label in zip(axes,batch[1][0:10]):
    d2l.torch.show_bboxes(axe,bboxes=[label[0][1:5]*256],colors=['w']) #label[0][1:5]*256乘256是因为加载数据集时bounding box边缘框除以256,256是图片的高和宽

李沐动手学深度学习V2-目标检测数据集_第1张图片

5.小结

  1. 收集的香蕉检测数据集可用于演示目标检测模型。
  2. 用于目标检测的数据加载与图像分类的数据加载类似。但是在目标检测中,标签还包含真实边界框的信息,在图像分类中没有真实边界框标签信息。

6. 全部代码

import torch
import os
import pandas as pd
import torchvision
import d2l.torch

#@save
d2l.torch.DATA_HUB['banana-detection'] = (
    d2l.torch.DATA_URL + 'banana-detection.zip',
    '5de26c8fce5ccdea9f91267273464dc968d20d72')


def read_data_bananas(is_train=True):
    data_dir = d2l.torch.download_extract('banana-detection')
    print(data_dir)
    csv_fpath = os.path.join(data_dir, 'bananas_train' if is_train else 'bananas_val', 'label.csv')
    csv_file = pd.read_csv(csv_fpath)
    csv_file = csv_file.set_index('img_name')
    images, targets = [], []
    for image_name, target in csv_file.iterrows():
        images.append(torchvision.io.read_image(
            path=os.path.join(data_dir, 'bananas_train' if is_train else 'bananas_val', 'images', f'{image_name}')))
        targets.append(list(target))
    return images, torch.tensor(targets).unsqueeze(1) / 256


images, targets = read_data_bananas()
targets[0]
targets.shape
"""一个用于加载香蕉检测数据集的自定义数据集"""


class BananasDataset(torch.utils.data.Dataset):
    def __init__(self, is_train):
        self.features, self.labels = read_data_bananas(is_train)

    def __getitem__(self, item):
        return (self.features[item].float(), self.labels[item])

    def __len__(self):
        return len(self.features)


"""加载香蕉检测数据集"""


def load_data_bananas(batch_size):
    train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True), batch_size, shuffle=True)
    val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False), batch_size, shuffle=False)
    return train_iter, val_iter


batch_size, edge_size = 32, 256
train_iter, valid_iter = load_data_bananas(batch_size)
batch = next(iter(train_iter))
batch[0].shape, batch[1].shape
#permute()函数可以同时多次交换tensor的维度,如:b = a.permute(0,2 ,1) 将a的维度索引1和维度索引2交换位置
imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255  #除以255是为了对图片中每一个像素进行标准化
axes = d2l.torch.show_images(imgs, 2, 5, scale=2)
d2l.torch.bbox_to_rect()
for axe, label in zip(axes, batch[1][0:10]):
    d2l.torch.show_bboxes(axe, bboxes=[label[0][1:5] * 256],
                          colors=['w'])  #label[0][1:5]*256乘256是因为加载数据集时bounding box边缘框除以256,256是图片的高和宽
x_range = torch.arange(0, 2)
y_range = torch.arange(0, 4)
x, y = torch.meshgrid(y_range, x_range)
print(x)
print(y)
x, y = torch.meshgrid(x_range, y_range)
print(x)
print(y)

你可能感兴趣的:(李沐动手学深度学习笔记,深度学习,目标检测,pytorch,python,神经网络)