1.引言
最近准备学习使用ffmpeg库写一些音视频方面的代码。但是对这个库的概念也好,用途也好不是十分的明确,故做一个笔记记录下。
2.正题
FFmpeg:是领先的多媒体框架,能够解码、编码、译码、复用器、解复用器、流、滤波和播放几乎任何人类和机器产生的饮食频。
它包括这样的几个库:libavcodec,libavutil,libavformat,libavfilter,libavdevice,libswscale and libswresample。
libavcodec:提供了一个通用的编码/解码框架包含多种音解码器和编码器,视频和字幕流,和几个比特流过滤器。共享体系结构提供了各种各样的服务,从比特流I/O到DSP优化,使得它适合于实现健壮和快速的编解码器,以及用于实验。
libformat:提供了视频的复用和多路处理功能。实现了流媒体协议(udp、rtp、rtmp、rtsp等),媒体容器(mp4、AVI、Flv等)和基本的I/O访问。rtp,rtcp等协议的详细介绍
libavutil:是一个实用程序库,以帮助便携式多媒体编程。它包含了安全的移动字符串函数,随机数生成器,数据结构,附加数学功能,加密和多媒体相关的功能(如枚举的像素采样格式)。它并不是libavcodec和libav必备的库
libavdevice:抓取和绘制多种多媒体输入/输出设备提供了一个通用的框架,支持多种输入和输出设备,包括video4linux2 vfw dshow ALSA。
libavfilter:是一个通用的音视频后处理库。例如噪音处理
libswcale:执行高度优化的图像缩放和颜色的像素格式转换操作。
具体来说,这个库执行以下操作:
缩放:是改变视频大小的过程。几种缩放选项和算法都可以。这通常是一个有损过程。
像素格式转换:是图像的图像格式和色彩空间转换的过程,例如从平面yuv420p为RGB24包装。它还处理包装转换,即从填充布局(所有属于同一缓冲区内的不同平面的像素)转换为平面布局(所有属于同一平面的样本都存储在专用缓冲区或“平面”)中。
这通常是在源和目标颜色不同的有损压缩。
libswresample:实现音频的重采样和混音,根据平台做了优化(neon等)。
该libswresample库进行高度优化的音频采样,rematrixing和采样格式转换操作。
重采样:是改变音频速率,例如从44100Hz的高采样率到8000Hz的过程。从高至低采样率的音频转换是一种有损的过程。几个重采样选项和算法是可用的。
格式转换:是将样品的类型,例如从16位有符号的样本为无符号的8位或浮样品的过程。它还处理包装的转换,从包装的布局传递时,以平面布局(属于交织在相同缓冲液不同的信道的所有样品)(属于存储在专用缓冲区或“平面”相同的信道的所有样品)。
Rematrixing:是改变频道布局,例如从立体声到单声道的过程。当输入通道不能被映射到输出数据流,该方法是有损耗的,因为它涉及到不同的增益因子和混合。
其他各种音频转换(如拉伸和填充)通过专用的选项启用。
视频播放过程:
首先简单介绍以下视频文件的相关知识。我们平时看到的视频文件有许多格式,比如 avi, mkv, rmvb, mov, mp4等等,这些被称为容器(Container), 不同的容器格式规定了其中音视频数据的组织方式(也包括其他数据,比如字幕等)。容器中一般会封装有视频和音频轨,也称为视频流(stream)和音频 流,播放视频文件的第一步就是根据视频文件的格式,解析(demux)出其中封装的视频流、音频流以及字幕(如果有的话),解析的数据读到包 (packet)中,每个包里保存的是视频帧(frame)或音频帧,然后分别对视频帧和音频帧调用相应的解码器(decoder)进行解码,比如使用 H.264编码的视频和MP3编码的音频,会相应的调用H.264解码器和MP3解码器,解码之后得到的就是原始的图像(YUV or RGB)和声音(PCM)数据,然后根据同步好的时间将图像显示到屏幕上,将声音输出到声卡,最终就是我们看到的视频。
FFmpeg的API就是根据这个过程设计的,因此使用FFmpeg来处理视频文件的方法非常直观简单。下面就一步一步介绍从视频文件中解码出图片的过程。
yuv文件格式的介绍
YUV是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式采用的颜色空间。在现代彩色电视系统中,通常采用三管彩色摄影机或彩色CCD摄影机进行取像,然后把取得的彩色图像信号经分色、分别放大校正后得到RGB,再经过矩阵变换电路得到亮度信号Y和两个色差信号B-Y(即U)、R-Y(即V),最后发送端将亮度和色差三个信号分别进行编码,用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。
硬解码和软解码:我们在计算机上播放的视频文件都是经过压缩的,因为这样有利于节约存储空间;那么在播放过程,就需要进行一个反射的解压缩过程。在以前这项工作都是由CPU来完成的,对于普通分辨率的AVI、RMVB等文件,绝大多数的CPU都可以胜任;但是发展到高清视频(1080i/p)之后,数据解压缩的工作量比以前翻了数倍,这让很多处理器叫苦不迭。
随着技术的发展,工程师们发现显卡的GPU/VPU要比CPU更适合这类大数据量的、低难度的重复工作。视频解码工作从处理器那里分离出来,交给显卡去做,这就叫做“硬解码”,例如NVDIA的PureVideo、AMD的UVD技术等等;与之对应的,以前那种纯粹依靠CPU来讲稿的方式则是“软解码”。不过受到技术条件的限制,纯粹的“硬解码”在现阶段是不存在的,CPU依然在发挥一部分作用,只不过硬解码时GPU/VPU已经成为运算的主力。