PyTorch学习笔记8——计算机视觉(CV)

由于本人需要快速上手图像识别方面内容,所以未按照参考书中内容进行学习,直接跳到了计算机视觉部分。

8.1 图像增广

图像增广在对训练图像进行一系列的随机变化之后,生成相似但不同的训练样本,从而扩大了训练集的规模。 此外,应用图像增广的原因是,随机改变训练样本可以减少模型对某些属性的依赖,从而提高模型的泛化能力。 例如,我们可以以不同的方式裁剪图像,使感兴趣的对象出现在不同的位置,减少模型对于对象出现位置的依赖。 我们还可以调整亮度、颜色等因素来降低模型对颜色的敏感度。
导入所用包

import torch
import time
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torchvision
from PIL import Image
import sys
sys.path.append("..")

device = torch.device('cuda' if torch.cuda.is_available() else
                      'cpu')

8.1.1 常用图像增广的办法

8.1.1.1 翻转和裁剪

左右翻转图像通常不会改变对象的类别。这是最早和最广泛使用的图像增广方法之一。 接下来,我们使用 transforms 模块来创建 RandomFlipLeftRight 实例,这样就各有50%的几率使图像向左或向右翻转。

 torchvision.transforms.RandomHorizontalFlip()

PyTorch学习笔记8——计算机视觉(CV)_第1张图片

随机裁剪一个面积为原始面积10%到100%的区域,该区域的宽高比从0.5到2之间随机取值。 然后,区域的宽度和高度都被缩放到200像素。

torchvision.transforms.RandomResizedCrop(
    (200, 200), scale=(0.1, 1), ratio=(0.5, 2))

PyTorch学习笔记8——计算机视觉(CV)_第2张图片

8.1.1.2 改变颜色

另一种增广方法是改变颜色。 我们可以改变图像颜色的四个方面:亮度、对比度、饱和度和色调。 在下面的示例中,我们将图像的亮度更改为原始图像的50%( 1−0.5 )到150%( 1+0.5 )之间的随机值。

torchvision.transforms.ColorJitter(brightness=0.5, contrast=0,
                                       saturation=0, hue=0)

PyTorch学习笔记8——计算机视觉(CV)_第3张图片
我们还可以随机改变图像的色调。

torchvision.transforms.ColorJitter(brightness=0, contrast=0, saturation=0,
                                       hue=0.5)

PyTorch学习笔记8——计算机视觉(CV)_第4张图片

8.1.1.3 结合多种图像增广方法

我们可以通过使用一个 Compose 实例来综合上面定义的不同的图像增广方法,并将它们应用到每个图像。

augs = torchvision.transforms.Compose([
    torchvision.transforms.RandomHorizontalFlip(), color_aug, shape_aug])

PyTorch学习笔记8——计算机视觉(CV)_第5张图片

8.2 微调

PyTorch学习笔记8——计算机视觉(CV)_第6张图片

微调包括以下四个步骤:

1.在源数据集(例如 ImageNet 数据集)上预训练神经网络模型,即 源模型。

2.创建一个新的神经网络模型,即 目标模型。这将复制源模型上的所有模型设计及其参数,但输出层除外。我们假定这些模型参数包含从源数据集中学到的知识,这些知识也将适用于目标数据集。我们还假设源模型的输出图层与源数据集的标签密切相关;因此不在目标模型中使用该图层。

3.向目标模型添加输出图层,其输出数量是目标数据集中的类别数。然后随机初始化该层的模型参数。

4.在目标数据集(如椅子数据集)上训练目标模型。输出图层将从头开始进行训练,而所有其他图层的参数将根据源模型的参数进行微调。

8.3 目标检测和边界框

先加载示例图片

mport torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
import torchvision
from PIL import Image
import sys
sys.path.append("..")
import matplotlib.pyplot as plt
device = torch.device('cuda' if torch.cuda.is_available() else
                      'cpu')
                  
img = Image.open('D:\\dogcatdata\\cnn_data\\cnn_data\\数据集\\training_data\\cats\\cat.0.jpg')

plt.imshow(img)
plt.show()

PyTorch学习笔记8——计算机视觉(CV)_第7张图片

在目标检测中,我们通常使用边界框(bounding box)来描述目标位置。边界框是一个矩形框,可以由矩形左上角的x轴和y轴坐标来确定。
图中的坐标原点在图像的左下角,原点往右和往下分别为x轴和y轴的正方向

# 规定框(左上x, 左上y, 右下x, 右下y)
cat_bbox = [122, 69, 369, 216]

def bbox_to_rect(bbox, color):
# 将边界框转换成matplotlib格式:((左上x, 左上y), 宽, 高)
    return plt.Rectangle(xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1], fill=False, edgecolor=color, linewidth=2)
fig = plt.imshow(img)
fig = plt.show()
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'))

上述代码在本人电脑运行未显示理想效果,可能是axes的原因,后续有时间会在更新。

8.4 锚框

目标检测算法通常会在输入图像采样大量的区域,然后判断这些区域是否有我们感兴趣的目标,并调整区域边缘来准确预测目标的真实边界框。
不同模型使用的区域采样方法可能不同。
这里介绍一种方法,它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框,这些框称之为锚框(anchor box)。

锚框的具体运用会在之后的论文研读方面进行研究,本篇文章还会不定期更新~

你可能感兴趣的:(计算机视觉,深度学习)