(八)计算机视觉 -- 3 目标检测和边界框

3. 目标检测和边界框

在图像分类任务中,我们假设图像里只有一个主体目标,并关注如何识别该目标的类别。

然而,很多时候图像中存在多个感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。

在计算机视觉里,将这类任务称为目标检测(object detection)或物体检测。


目标检测在多个领域中被广泛使用,例如:
在无人驾驶中,需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。
机器人常通过该任务来检测感兴趣的目标。
安防领域需要检测异常目标,如歹徒或者炸弹。

先导入实验所需的包或模块:

import os
import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf
print(tf.__version__)
2.0.0
img = plt.imread('cat3.jpeg')
plt.imshow(img)

(八)计算机视觉 -- 3 目标检测和边界框_第1张图片

边界框

在目标检测中,通常使用边界框(bounding box)来描述目标位置。

边界框是一个矩形框,可以由矩形左上角的 x x x y y y轴坐标与右下角的 x x x y y y轴坐标确定。

根据上图的坐标信息来定义图中狗和猫的边界框。

图中的坐标原点在图像的左上角,原点往右和往下分别为 x x x轴和 y y y轴的正方向。

# bbox为bounding box的缩写
dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493]

可以在图中绘制边界框,以检查其是否准确。
定义一个辅助函数bbox_to_rect,它将边界框表示成matplotlib的边界框格式。

def bbox_to_rect(bbox, color):
    # 将边界框(左上x, 左上y, 右下x, 右下y)格式转换成matplotlib格式:
    # ((左上x, 左上y), 宽, 高)
    return plt.Rectangle(xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1], fill=False, edgecolor=color, linewidth=2)

将边界框加载在图像上,可以看到目标的主要轮廓基本在框内。

fig = plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
(八)计算机视觉 -- 3 目标检测和边界框_第2张图片




参考

《动手学深度学习》(TF2.0版)

你可能感兴趣的:((八)计算机视觉 -- 3 目标检测和边界框)