计算机视觉发展

1. 概览

1.1 定义及历史

  • 赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);
  • 计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;
  • 经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉

1.2 计算机视觉 vs人工智能

人工智能范畴
计算机视觉知识树

1.3 整体概览

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程
网络越深,精度越高
轻量化网络,ShuffleNet-V2,准确性和效率均最好
2.1.2 挑战

人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化

  • 遮挡
  • 视角
  • 光照
  • 尺度
  • 变形
  • 背景干扰


2.1.3 典型框架

深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。

2.2 物体检测

2.2.1 发展历程

2.2.2 挑战

平衡两方面因素

  • 精度
  • 速度
2.2.3 典型框架
  • Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢


  • One-stage:端到端框架,精度低但速度快


2.2.4 发展趋势

物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化

2.3 图像分割

2.3.1 定义


语义分割

实例分割

3D分割

视频分割

2.3.2 分割质量评价指标

  • Pixel Accuracy,标记正确的像素占总像素的比例


  • mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值


2.3.3 发展历程

2.3.4 典型算法

2.3.5 挑战

  • 难点A:如何表示高度抽象的语义信息



  • 难点B:场景复杂,存在遮挡,阴影等因素



  • 难点C:边缘和微小物体等细节部分易丢失



2.3.6 数据集

  • 通用场景分割
    1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。
    2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017))
  • 道路场景分割数据集
    1. Cityscapes,
    2. Mapillary Vistas,
    3. ApolloScape
    4. BDD100K等

2.3 视频分析

2.3.1 发展历程

  • 双流网络:融合空间与时序变化的信息进行分析


  • 利用人体骨架/关节点/姿态信息预测人体行为



  • STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等


  • 3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等


    image.png

2.3.2 典型算法

  • C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。



  • I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。


  • P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。


  • Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。


  • TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。



    image.png
  • SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。


2.3.3 挑战

  • 难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。


  • 难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。



  • 难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。



2.3.4 相关数据集



2.4 SLAM

2.4.1 知识树

2.4.2 经典算法

2.4.3 发展趋势

  • 多传感器融合(GPS/IMU/Camera/Lidar/Radar)


  • 深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)



  • 语义SLAM(半稠密语义建图/稠密3D语义建图)



  • 端到端SLAM(基于增强学习的自主导航/感知建图和规划)



2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。


人脸交互 表情识别/眼球追踪/头部姿态

手势交互

体控交互

2.5.2 面部表情

  • 表情识别发展
    方法从手工特征到深度神经网络
    数据从粗分类到精细表情分类


  • 识别流程


  • 应用场景


    智能监控

    智能机器人

    虚拟现实

2.5.2 手势

  • 应用场景


  • 优劣势
    优势
    识别人的自然手势
    可以脱离实体接触,实现远距离控制
    交互动作更加丰富和自然
    劣势
    成本相对高
    识别手势有限
  • 技术实现
    Depth Camera
    RGB-D Camera
    Monocular RGB

2.5.3 人体

  • 类型


    2D Human Pose

    3D Human Pose
  • 应用场景


    体感游戏

    辅助裁判

    自动驾驶
  • 优劣势
    优势
    技术成熟
    落地应用越来越多
    交互动作更加丰富和自然
    劣势
    使用场景要覆盖全身,遮挡条件下效果不好
    应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题

2.6.1 发展历程

2.6.2 定义


文本检测
SWT:基于笔画特征
MSER:基于稳定区域
FCN+RNN:基于分割的方式
SSD-based:基于深度检测的方式
文本识别
字符识别:HOG、SIFT特征
单词识别:CNN分类
文本行识别:CNN + LSTM + CTC

2.6.3 挑战与难点


多种语言文本混合
文本方向多样性
文字变形(透视、仿射变换)、残缺、模糊等现象
自然场景图像的背景极其多样
光照变化、遮挡问题

2.6.4 发展趋势

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来
对抗生成学习 GANs
强化学习
Automl


2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

  • 目标是模拟图像的高维分布,以生成“真实”的图像,


  • 与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果


  • 图像生成方面,从早期的Deep dream,到去年底的高清人脸生成



  • 数据增广与增强深度网络对噪声样本鲁棒


2.7.3 强化学习

研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏


  • 面向特定任务的机械控制,路径规划


  • 自主搜索更优的深度网络结构


  • 策略游戏AI,媲美或超越人类顶级高手


2.7.4 Automl

  • 自动化实现高性能的模型构建和超参数调整
    目标是降低模型设计的难度,但需要大量的算力来支撑
    前沿课题,发展迅速,需要紧密观察
    在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络


  • 在检测任务上的测评表现(NAS为automl模型)


你可能感兴趣的:(计算机视觉发展)