FFmpeg作为一个集录制、转换、音/视频编码解码功能为一体的开源框架，自然也需要考虑怎样去和当下流行的视频分析技术融合。本文来自英特尔网络平台部软件工程师谢林在LiveVideoStack线上分享中的演讲，详细解析了如何用FFmpeg搭建基于CNN的视频分析方案。

文 / 谢林

整理 / LiveVideoStack

回放链接

https://www2.tutormeetplus.co...

大家好，我是来自英特尔网络平台部VEI组的谢林。本次分享希望与大家一起探索如何用FFmpeg搭建视频分析方案，内容主要分为以下几个方面。

1. 自我介绍与团队介绍

我从事软件开发超过十一年，在嵌入式系统、多媒体等领域有丰富的开发经验，现在也开始尝试一些与深度学习相关的工作，主要是开发与视频分析相关的解决方案。

我所在的团队也基本专注于视频相关的业务，主要涵盖以上四个部分：第一部分是多媒体的使能与分发，主要就是传统的转码业务；第二部分是云游戏，目前我们在Android和 Windows平台上都有相应的解决方案；第三部分是沉浸式虚拟现实，包括360°全景摄影、VR/AR等端到端的解决方案；第四部分就是视频分析。我们在这四大板块都有商用化的解决方案与成熟完整的技术储备。

2. OpenVINO 深度学习开发工具套件介绍

OpenVINO是英特尔近几年推出的一个重要软件产品，主要用于深度学习的开发，由Model Optimizer与Inference Engine两个主要模块组成。Model Optimizer的主要功能是模型的优化，包括转换一些现有成熟的AI框架下的模型成为中间格式，再通过推理引擎把模型部署到英特尔的各种设备之上。

最新的OpenVINO版本又引入了Nervana的N-Graph，可以说在模型的支持方面又有了新的突破。你可以在Github上找到oepn model zoo，里面包含了许多训练好的模型与代码，能够帮助快速上手，OpenVINO基于此开发了多种应用。

除此之外，OpenVINO也可以用来开发许多与深度学习相关的工具，例如我们现在经常用到的是将精度FP32的模型转换成int-8，使得性能大大提升。OpenVINO中也包含许多已经成熟的视觉相关的开发套件，包括OpenCV、OpenVX，同样也支持英特尔的MediaSDK与主要用于GPU加速的OpenCL，当然也支持FPGA开发环境。

OpenVINO最成功的一点就是将英特尔所有的与AI相关的软硬件进行了整体的封装，通过OpenVINO的推理引擎将各个设备都利用起来，从而进一步提升开发效率。

一个典型的音视频处理流程，首先在流程开始时对输入码流解码，然后解出来的视频帧进行前处理，处理完毕后的数据会被传输至推理引擎当中进行推理，从引擎输出的结果会再经过后处理，在此之后如果需要编码成其它格式则进行encode工作。

图中展示的是OpenVINO实际工作流程。首先，我们需要有一个训练好的模型，可能来自TensorFlow、Caffe或者mxnet等。训练完毕的数据通过Model Optimizer被转换成IR格式，此时一部分文件格式为.xml，另一部分文件格式则为.bin。其中.xml文件主要包括一些网络拓扑结构，.bin文件则包含那些参数的权重。将这两种格式的文件同时放入推理引擎当中，文件加载后再根据用户的设置，采用CPU、GPU、VPU等设备进行推理。

通过OpenVINO开发套件我们可以实现很多基于深度学习的案例，比较常见的如图形分类、分割，物体的检测、追踪，人脸识别，也有一些与交通安全相关的用例，如行人、车牌识别，另外，还可以用它做一些语音识别相关的应用。但是这里存在一个问题，如果使用OpenVINO开发，需要根据特定需求写具体的应用，没有一个可以完全复用的框架从而高效便捷地搭建一个完整方案。由此我们产生一个想法：将FFmpeg与深度学习有机结合，让大家使用简单的FFmpeg命令行就能够搭建高质量的深度学习用例。

3. FFmpeg与DNN模型

图中展示的是当前FFmpeg 与DNN模型结构框架，FFmpeg包含一个DNN Interface，它由两部分组成：DNNModel与DNNModule，可以看到，基于DNNInterface已经实现了一个超分的SR Filter，以及一个用于去雨滴功能的Derain Filter。在后端则支持TensorFlow Backend与NativeBackend。

举一个实际的例子来说，其命令行如下所示：

ffmpeg -i derain_input.mp4 -vfderain=model=derain_RESCAN.pb:dnn_backend=1 derain_output.mp4

其中.mp4文件作为输入被解码，解码出的视频帧首先会被送到Derain Filter，对于Derain Filter指定了参数dnn_backend，如果dnn_backend=1则会选用TensorFlow来做Backend，另外一个参数model对应的是指定模型文件的路径。输出后的数据被编码打包成.mp4文件，整个流程逻辑清晰，使用起来与其它滤镜相比也没有太大差别。但就功能来说还较为单一，要想实现复杂应用如人脸识别、物体跟踪与检测等则较为困难。我们曾尝试在当前框架下进一步扩展，但是我们发现现有的DNN Interface还不够完整，目前还在继续完善与更新中，而且如果完全按照现有结构去实现一些较为复杂的用例，其性能表现并不出色。

4. FFmpeg与OpenVINO IE Integration

因此我们自主研发了一套全新的架构，如上图所示：我们定义了一个Image Inference Backend模块，其与DNNInterface相互独立。这里我们利用了英特尔的OpenVINO推理引擎并将其作为一个Backend。通过推理引擎的CAPI，利用各种硬件设备实现推理加速。

上图列出了比较重要的两个Filter：检测与分类，可以通过ffmpeg命令行直接使用这些filter。相较于之前的DNN Interface，该架构拥有诸多新特性：首先该模型可部署到多种硬件设备平台，支持异步工作模式以及多个推理请求并行处理。其次，该模型支持Batch mode，可以一次送多个frame进行inference。此外，该模型也支持隔帧处理，支持不需要每一帧都去inference的情形。

5. FFmpeg Video Analytics PluginsList

图中展示的是具体实现中的plugin，在FFmpegFilter方面我们实现了Detection、Classification与identification也就是检测、分类与识别。除此之外，还实现了Metadata Conversion，也就是将推理以后一些数据存储到FFmpeg的AVFrame SideData当中。

另外我们也实现了两个muxer，一个是可将这些Metadata进行发布，或者存储成一些文件。同时也支持Kafka协议进行分发，创建一个Kafka的Broker并发送到Kafka的远端服务器上。

6. FFmpeg视频分析案例

由上图所示，我们可以看到其中采用了我们实现的一些Filter以及Muxer：解码后系统获得视频帧，随后进入第一个Filter：Detect Filter，Detect Filter中第一项流程是预处理（包含颜色空间的转换与缩放）。大家知道深度学习的模型，其输入的数据与frame的layout不一样，因此这里的格式转换十分必要。目前大多只能接受RGB作为输入，同时模型对输入的尺寸也有固定要求，因此这里需要一个尺寸重新调整的过程。

预处理后的流程是Inference，利用OpenVINO推理引擎。在此之后，由于我们需要明确Detect Filter输出数据的含义，数据经过Detect Filter后还要进行后处理。后处理将输出结果转换成一些预先定义好的数据结构，这些结果与原始的Video帧一起，被存储在 Detect Side Data当中，送至下一个Classify Filter（分类滤镜）。其工作流程与之前的Filter差不多，唯一的差别是Classify Filter会根据前面检测出的结果获取一些ROI，并对这些ROI进行crop处理，取出所需一块之后再去做Scale与CSC。ClassifyFilter处理完成的数据会被存储在Classify Side Data里，并与原始视频一起送往下一个单元，在这里可以选择分发，也可以用overlay的方式呈现原始图像。

如果使用ffmpeg命令行加上我们新实现的component，该怎么去做呢？

具体实践如上图所示，其中的高亮表示关键元素。前面的部分主要是指定一个输入，而后面对于Filter的描述则非常多，大致可以看到其中包含了4个Filter。经过detect的数据会被送至下一步classify，这里有可能做另外的分类。分类过后则是metadata的转换，最后通过metapublish分发出去。

我们再来看看其中的一些参数，例如有参数用来指定检测模型的检测路径，还有一个参数被称为model_proc，主要用于告知模型前处理与后处理的一些基本信息，这是一个Json格式的script。nireq参数可以告诉我们同时有多少推理请求正在工作，device参数可以告诉我们这个模型需要部署到哪一个硬件设备上，其他的classify参数与detect的基本一致。

metapublish参数则是告诉我们数据需要被转化成什么输出格式，现在我们支持用json格式来输出，最后通过一个kafka协议的url发送至kafka的远程服务器。

上图就是我们在GitHub上的主页(https://github.com/VCDP/FFmpe...，包括具体的实现和一些教程，wiki里有教大家如何一步步搭建这样一个视频分析方案，欢迎大家前访问并提宝贵建议。这个repo并不是一个完整的FFmpeg source code。因为FFmpeg的架构无法将一个完全独立的工程作为一个插件。我们只是把现有的实现按照patch的方式来发布，而这些patch都是以FFmpeg 4.2 release作为基础。在实际过程中，首先需要下载FFmpeg4.2源代码，再安装一些可能需要依赖的三方库，然后编译整个FFmpeg工程，就可以通过ffmpeg命令行使用我们设计的这些Filter与Muxer。

在开发的过程之中，我们发现FFmpeg可能存在一些不足。例如每个Filter不能单独运行在一个线程上，并且不能实现多个frame分发到不同线程，这对效率有比较严重的制约。另外目前的Filter chain是串行工作的模式，不能够做并行处理，这也会降低整体效率。

深度学习当中输入输出的格式与传统音视频输入输出的格式不同，目前FFmpeg当中也没有合适的数据结构或者一些预置定义好的接口用于支持DL Tensor，为此我们自定义了一些数据结构。Libavfilter当初设计的目标主要是针对一些轻量级的处理，并未考虑引入像深度学习这样复杂繁重的功能。如果我们不想被限制在Libavfilter这个框架下，也可以考虑重新设计一套框架来更好地支持深度学习。

用FFmpeg搭建基于CNN的视频分析方案