0 前情提要
open-mmlab部分框架,加方法综述,亲测可看。
林达华主讲。
涉及:
- 图像分类 —— MMClassification
- 目标检测 —— MMDetection
- 图像分割 —— MMSegmentation
- 行为识别 —— MMAction2
- 生成对抗系列——图像编辑 —— MMEditing
没找到ppt。
计算机视觉
困难:
- 同类物体外观差异巨大
- 不同物体外观相似
- 拍摄环境的影响
![烂笔头 | OpenMMLab 第一讲_第1张图片](http://img.e-com-net.com/image/info8/c4143c3230794c7ead1d9055243adda9.jpg)
1 图像分类
人工定义 机器学习
1.1 发展
- 图像特征和分类器(1990s~2012)
- 深度学习(2012~)
- 网络结构的演进(2012~2017+)
- 新的趋势(2017~)
![烂笔头 | OpenMMLab 第一讲_第2张图片](http://img.e-com-net.com/image/info8/91c119eb9ecf401aa9360130a5c45853.jpg)
1.2 MMClassification
![烂笔头 | OpenMMLab 第一讲_第3张图片](http://img.e-com-net.com/image/info8/def32f7250574390876b88984797ba5e.jpg)
2 目标检测
2.1 发展
- 基本思想:滑窗检测
- 基本思想:区域提议(region proposal)
- 两阶段方法的演进(2014~2017)
- 一阶段方法(2015~)
- 新的趋势(2018~)
![烂笔头 | OpenMMLab 第一讲_第4张图片](http://img.e-com-net.com/image/info8/509252d2780b4c6e97492d3bd86d8c3b.jpg)
2.2 MMDetection
![烂笔头 | OpenMMLab 第一讲_第5张图片](http://img.e-com-net.com/image/info8/09536248059040db8524180cf7b8d289.jpg)
2.3 模块化设计
![烂笔头 | OpenMMLab 第一讲_第6张图片](http://img.e-com-net.com/image/info8/8e80538de5ca4113933bddd2ed3f26ce.jpg)
3 语义分割
![烂笔头 | OpenMMLab 第一讲_第7张图片](http://img.e-com-net.com/image/info8/920aa785bf4f445592fbf44fdd7c57f1.jpg)
3.1发展
本质上来说,也是一个分类问题。可以充分利用之前的分类网络。
- 深度学习的突破:全卷积网络 FCN(2015)
- 分割模型的进化(2015~)
- UNet 编码器-解码器
- DeepLab 空洞卷积
- 局部信息歧义 上下文的重要性
- 在模型中捕捉上下文信息(2016~)
- PSPNet 2016 不同尺度的池化
- DeepLab v3 2017 不同尺度的空洞卷积
![烂笔头 | OpenMMLab 第一讲_第8张图片](http://img.e-com-net.com/image/info8/b71623fd7072422c872f35172f19c045.jpg)
3.2 MMSegmentation
![烂笔头 | OpenMMLab 第一讲_第9张图片](http://img.e-com-net.com/image/info8/34676b8556ab47ad9c6499eac518fead.jpg)
![烂笔头 | OpenMMLab 第一讲_第10张图片](http://img.e-com-net.com/image/info8/f5e94f6a05d94328a8b033671985a073.jpg)
4 视频理解
识别视频中的体育运动、检索视频中的片段……
- 时序动作检测:When + What
- 时空动作检测:Where + When + What
- 视频 = 空间 + 时间 = 外观 + 动作
4.1 发展
- 从手工特征到卷积网络(~2014)
- 从单流到双流(2014~)
- 双流网络 Two Stream Networks 2014:图像和光流
- 时序分段网络 TSN 2016:视频切割成多个片段 snippets
- 大规模视频数据集的出现(2017~)
- 从2D卷积到3D卷积(2017~)
- I3D 2017:2D卷积膨胀到3D卷积
- SlowFast 2019:视频整体变化缓慢,但动作高速变化;使用不同频率
- 压缩3D网络(2018~)
- S3D/R2+1D 2018:分解 3D 卷积核 空间 2D + 时间 1D
- CSN 2019/X3D 2020:减少通道之间的连接,分组卷积、分层卷积
- 更大的数据(2019~)
- 弱监督学习(2019~)
![烂笔头 | OpenMMLab 第一讲_第11张图片](http://img.e-com-net.com/image/info8/e003b9b30cb7426c88a7f8912fa43862.jpg)
4.2 MMAction2
![烂笔头 | OpenMMLab 第一讲_第12张图片](http://img.e-com-net.com/image/info8/c0596aee74084a638ac19cf97f07dd48.jpg)
5 生成对抗模型
生成难以分辨的真实人脸、输入音频让图中的人说话、风格转化、动漫特效……
无中生有——生成对抗网络
5.1 发展
- GAN 2014
- DCGAN 2015:基于卷积和反卷积
- WGAN 2017:改善了训练不稳定
- BigGAN 2017/styleGAN 2018:大模型,大数据集
- CycleGAN/pix2pix 2017:风格转化
- SeFa 2020:可解释的模型
5.2 图像修复
5.2.1 什么是对抗训练?
![烂笔头 | OpenMMLab 第一讲_第13张图片](http://img.e-com-net.com/image/info8/c19830a66186465790376914b7b23775.jpg)
5.3 图像超分辨率
- 视觉传统:基于相似匹配和字典学习
- 卷积网络:SRCNN(2014)
- 生成对抗网络:SRGAN(2016)/ESRGAN(2018)
- 新的方向:MetaSR(2019):元学习
5.4 抠图
- 传统视觉:Closed-Form Matting(2006)
- 深度学习方法
- Deep Image Matting(2017)
- FBA Matting(2020):透明度、前景和背景
5.5 MMEditing
6 其他方向
![烂笔头 | OpenMMLab 第一讲_第14张图片](http://img.e-com-net.com/image/info8/fa7ab71554bc4ef9aacd752a2e7bee33.jpg)
7 参考
通用视觉框架OpenMMLab系列课程 第一讲 bilibil