18.深度学习之计算机视觉-2

18.1 什么是目标检测

  • 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置
  • 计算机视觉中关于图像识别有四大类任务:


18.1.1 目标检测要解决的核心问题

  • 除了图像分类之外,目标检测要解决的核心问题是:
    • 目标可能出现在图像的任何位置。
    • 目标有各种不同的大小。
    • 目标可能有各种不同的形状。

18.1.2 目标检测和边界框

  • 在图像分类任务里,假设图像里只有一个主体目标,并关注如何识别该目标的类别。
  • 目标检测在多个领域中被广泛使用。例如:
    • 在无人驾驶里,需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。
    • 机器人也常通过该任务来检测感兴趣的目标。
    • 安防领域则需要检测异常目标,如歹徒或者炸弹。


18.2 边界框

  • 在目标检测里,通常使用边界框(bounding box)来描述目标位置。
    • 边界框是一个矩形框,可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。


18.3 锚框

  • 目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)
  • 方法:
    • 它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)


18.3.1 生成多个锚框

  • 假设输入图像高为h,宽为w。

  • 分别以图像的每个像素为中心生成不同形状的锚框。

  • 设大小为


    • 且宽高比为r> 0,那么锚框的宽和高将分别为


    • 当中心位置给定时,已知宽和高的锚框是确定的。

  • 下面分别设定好一组大小


  • 如果以每个像素为中心时使用所有的大小与宽高比的组合,输入图像将一共得到whnm个锚框。

    • 虽然这些锚框可能覆盖了所有的真实边界框,但计算复杂度容易过高。
    • 因此,通常只对包含S1 or r1的大小与宽高比的组合感兴趣,即


  • 也就是说,以相同像素为中心的锚框的数量为n+m-1

    • 对于整个输入图像,将一共生成wh(n+m-1)个锚框。
      大数据视频推荐:
      腾讯课堂
      CSDN
      大数据语音推荐:
      企业级大数据技术应用
      大数据机器学习案例之推荐系统
      自然语言处理
      大数据基础
      人工智能:深度学习入门到精通

你可能感兴趣的:(18.深度学习之计算机视觉-2)