计算机视觉发展

1. 概览

1.1 定义及历史

赋予机器自然视觉能力的学科，给机器装上眼睛（成像设备）和大脑（算法）；
计算机视觉是一门综合性的学科，涵盖信号处理，神经认知学，应用数学和统计学等；

经历了4个主要阶段，研究内容大体分为物体视觉和空间视觉

1.2 计算机视觉 vs人工智能

人工智能范畴

计算机视觉知识树

1.3 整体概览

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程

网络越深，精度越高

轻量化网络，ShuffleNet-V2，准确性和效率均最好

2.1.2 挑战

人识别一个物体特别简单，但是计算机处理起来却不是件容易的事，需要应对多方面的因素变化

遮挡
视角
光照
尺度
变形
背景干扰

2.1.3 典型框架

深度学习成为主流之后，网络设计的思路：网络加深、网络加宽，为了提高效率，网络也向轻量化发展。

2.2 物体检测

2.2.1 发展历程

2.2.2 挑战

平衡两方面因素

精度
速度

2.2.3 典型框架

Two-stage：1.提取候选框；2.对候选框提取特征并分类；3.精度高但速度慢
One-stage：端到端框架，精度低但速度快

2.2.4 发展趋势

物体检测的发展趋势：Anchor-Free、关系推理、弱监督检测和轻量化

2.3 图像分割

2.3.1 定义

语义分割

实例分割

3D分割

视频分割

2.3.2 分割质量评价指标

Pixel Accuracy，标记正确的像素占总像素的比例
mIoU(Mean Intersection over Union)，平均交并比，各类真实值和预测值的交集和并集之比的均值

2.3.3 发展历程

2.3.4 典型算法

2.3.5 挑战

难点A：如何表示高度抽象的语义信息
难点B：场景复杂，存在遮挡，阴影等因素
难点C：边缘和微小物体等细节部分易丢失

2.3.6 数据集

通用场景分割
1.PASCAL VOC分割数据集，20类， 2913张图片(VOC 2012)。
2.MS COCO分割数据集，80类， 122218张图片（COCO instances 2017)）
道路场景分割数据集
1. Cityscapes,
2. Mapillary Vistas,
3. ApolloScape
4. BDD100K等

2.3 视频分析

2.3.1 发展历程

双流网络：融合空间与时序变化的信息进行分析
利用人体骨架/关节点/姿态信息预测人体行为
STN利用稀疏采样处理长视频分析，其他改进还有TRN和ECO等
3D卷积网络直接抽取信息，2D CNN的推广，后续改进有I3D，P3D，Non-local 3D等

image.png

2.3.2 典型算法

C3D: Tran等人提出，将3x3卷积扩展到3x3x3卷积，2x2 Pooling扩展到2x2x2 Pooling。
I3D: Carreira等人提出，把Two-Stream结构中的2D卷积扩展为3D卷积。
P3D: Z. Qiu等人提出，用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。
Two Stream: Simonyan等人提出，采用两个卷积分支，一个分支提取RGB图像中的空间信息，另一个分支处理光流运动场，用于提取帧之间的运动信息。
TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系，从而对视频进行稀疏采样，在避免冗余信息的同时可以处理长距离依赖。

image.png
SlowFastNet: Feichtenhofer等人提出，SlowFast网络中Slow分支用于捕获语义信息，而Fast分支用于捕获运动信息，这和Two-Stream网络的思路类似。

2.3.3 挑战

难点1：空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合，提取出动作意图，目前还没有明确理论。
难点2：动作边界不明确。现实中一件事情往往没有明确的开始点和结束点，从而导致目前行为识别和检测的mAP偏低。
难点3：时间跨度大。同一个动作，可能持续几秒钟，也可能持续几十秒，从而使得提取Proposal的变得异常艰难。

2.3.4 相关数据集

2.4 SLAM

2.4.1 知识树

2.4.2 经典算法

2.4.3 发展趋势

多传感器融合（GPS/IMU/Camera/Lidar/Radar）
深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)
语义SLAM(半稠密语义建图/稠密3D语义建图)
端到端SLAM(基于增强学习的自主导航/感知建图和规划)

2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段，如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中，视觉产品扮演着计算机输入设备的作用。

人脸交互表情识别/眼球追踪/头部姿态

手势交互

体控交互

2.5.2 面部表情

表情识别发展
方法从手工特征到深度神经网络
数据从粗分类到精细表情分类
识别流程
应用场景

智能监控

智能机器人

虚拟现实

2.5.2 手势

应用场景

优劣势
优势
识别人的自然手势
可以脱离实体接触，实现远距离控制
交互动作更加丰富和自然
劣势
成本相对高
识别手势有限
技术实现
Depth Camera
RGB-D Camera
Monocular RGB

2.5.3 人体

类型

2D Human Pose

3D Human Pose
应用场景

体感游戏

辅助裁判

自动驾驶
优劣势
优势
技术成熟
落地应用越来越多
交互动作更加丰富和自然
劣势
使用场景要覆盖全身，遮挡条件下效果不好
应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别，起源于上世纪50年代，如今技术成熟。STR自然场景文本识别，尽管有深度学习加成，仍是热点与难点问题

2.6.1 发展历程

2.6.2 定义

文本检测
SWT：基于笔画特征
MSER：基于稳定区域
FCN+RNN：基于分割的方式
SSD-based：基于深度检测的方式
文本识别
字符识别：HOG、SIFT特征
单词识别：CNN分类
文本行识别：CNN + LSTM + CTC

2.6.3 挑战与难点

多种语言文本混合
文本方向多样性
文字变形(透视、仿射变换)、残缺、模糊等现象
自然场景图像的背景极其多样
光照变化、遮挡问题

2.6.4 发展趋势

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石，同时，新兴方向已经正在影响并有可能引领视觉应用的未来
对抗生成学习 GANs
强化学习
Automl

2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

目标是模拟图像的高维分布，以生成“真实”的图像，
与图像处理 (超分、inpainting等)和合成等问题结合，提升视觉效果
图像生成方面，从早期的Deep dream，到去年底的高清人脸生成
数据增广与增强深度网络对噪声样本鲁棒

2.7.3 强化学习

研究学习器在与环境的交互过程中，如何学习到一种行为策略，以最大化得到的累积奖赏

面向特定任务的机械控制，路径规划
自主搜索更优的深度网络结构
策略游戏AI，媲美或超越人类顶级高手

2.7.4 Automl

自动化实现高性能的模型构建和超参数调整
目标是降低模型设计的难度，但需要大量的算力来支撑
前沿课题，发展迅速，需要紧密观察
在部分任务性能表现上，已经跟上甚至超越当前最优人工设计的深度网络
在检测任务上的测评表现(NAS为automl模型)