计算机视觉知识树,计算机视觉发展

1. 概览

1.1 定义及历史

赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);

计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;

经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉

1.2 计算机视觉 vs人工智能

人工智能范畴

计算机视觉知识树

1.3 整体概览

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程

网络越深,精度越高

轻量化网络,ShuffleNet-V2,准确性和效率均最好

2.1.2 挑战

人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化

遮挡

视角

光照

尺度

变形

背景干扰

2.1.3 典型框架

深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。

2.2 物体检测

2.2.1 发展历程

2.2.2 挑战

平衡两方面因素

精度

速度

2.2.3 典型框架

Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢

One-stage:端到端框架,精度低但速度快

2.2.4 发展趋势

物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化

2.3 图像分割

2.3.1 定义

语义分割

实例分割

3D分割

视频分割

2.3.2 分割质量评价指标

Pixel Accuracy,标记正确的像素占总像素的比例

mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值

2.3.3 发展历程

2.3.4 典型算法

2.3.5 挑战

难点A:如何表示高度抽象的语义信息

难点B:场景复杂,存在遮挡,阴影等因素

难点C:边缘和微小物体等细节部分易丢失

2.3.6 数据集

通用场景分割

1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。

2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017))

道路场景分割数据集

Cityscapes,

Mapillary Vistas,

ApolloScape

BDD100K等

2.3 视频分析

2.3.1 发展历程

双流网络:融合空间与时序变化的信息进行分析

利用人体骨架/关节点/姿态信息预测人体行为

STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等

3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等

image.png

2.3.2 典型算法

C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。

I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。

P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。

Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。

TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。

image.png

SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。

2.3.3 挑战

难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。

难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。

难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。

2.3.4 相关数据集

2.4 SLAM

2.4.1 知识树

2.4.2 经典算法

2.4.3 发展趋势

多传感器融合(GPS/IMU/Camera/Lidar/Radar)

深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)

语义SLAM(半稠密语义建图/稠密3D语义建图)

端到端SLAM(基于增强学习的自主导航/感知建图和规划)

2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。

人脸交互

表情识别/眼球追踪/头部姿态

手势交互

体控交互

2.5.2 面部表情

表情识别发展

方法从手工特征到深度神经网络

数据从粗分类到精细表情分类

识别流程

应用场景

智能监控

智能机器人

虚拟现实

2.5.2 手势

应用场景

优劣势

优势

识别人的自然手势

可以脱离实体接触,实现远距离控制

交互动作更加丰富和自然

劣势

成本相对高

识别手势有限

技术实现

Depth Camera

RGB-D Camera

Monocular RGB

2.5.3 人体

类型

2D Human Pose

3D Human Pose

应用场景

体感游戏

辅助裁判

自动驾驶

优劣势

优势

技术成熟

落地应用越来越多

交互动作更加丰富和自然

劣势

使用场景要覆盖全身,遮挡条件下效果不好

应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题

2.6.1 发展历程

2.6.2 定义

文本检测

SWT:基于笔画特征

MSER:基于稳定区域

FCN+RNN:基于分割的方式

SSD-based:基于深度检测的方式

文本识别

字符识别:HOG、SIFT特征

单词识别:CNN分类

文本行识别:CNN + LSTM + CTC

2.6.3 挑战与难点

多种语言文本混合

文本方向多样性

文字变形(透视、仿射变换)、残缺、模糊等现象

自然场景图像的背景极其多样

光照变化、遮挡问题

2.6.4 发展趋势

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来

对抗生成学习 GANs

强化学习

Automl

2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

目标是模拟图像的高维分布,以生成“真实”的图像,

与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果

图像生成方面,从早期的Deep dream,到去年底的高清人脸生成

数据增广与增强深度网络对噪声样本鲁棒

2.7.3 强化学习

研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏

面向特定任务的机械控制,路径规划

自主搜索更优的深度网络结构

策略游戏AI,媲美或超越人类顶级高手

2.7.4 Automl

自动化实现高性能的模型构建和超参数调整

目标是降低模型设计的难度,但需要大量的算力来支撑

前沿课题,发展迅速,需要紧密观察

在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络

在检测任务上的测评表现(NAS为automl模型)

你可能感兴趣的:(计算机视觉知识树)