音视频的基础知识

在我们利用FFmpeg开源库编写自己简易的播放器时，还是先来了解一下音视频的基础知识。毕竟知识还是要循序渐进，只有了解一些音视频基础知识才能更好的学习音视频。笔者最开始接触音视频的时候是从[雷霄骅]https://blog.csdn.net/leixiaohua1020专栏中。他留下的知识对音视频行业的影响依旧是不可磨灭的。关于初学者怎么去学习FFmepg 雷神给出方向https://blog.csdn.net/leixiaohua1020/article/details/15811977

视频播放流程

视频播放流程.png

上图是播放一个视频的流程也是播放器的核心原理步骤，视频的播放源可以是文件也可以是http，rtmp等协议流通过解协议得到封装格式的数据，通过解封装进一步分离视频流和音频流，得到视频压缩数据和音频的压缩数据，视频数据通过对应的压缩算法找到对应的解码器得到视频的像素数据，音频压缩数据通过解码的到音频采样数据（pcm数据），在扬声器播放pcm数据和屏幕显示像素数据是通过数据同步以后才播放的。没有接触过视音频技术的人，在学习FFmpeg之前先了解一下几种最基本的视音频数据的格式。

视频像素数据格式 RGB、YUV

YUV

YUV颜色的表示方法 “Y”表示亮度，“ U”表示色度,“V”表示饱和度。视频中常用的YUV格式有YUV420,YUV444,YUV422。这些个格式代表的是YUV分量的比例，下面还可以细分很多格式。像YUV420又可以分为两种：YUV420P和YUV420SP，android的相机默认图像格式NV21属于YUV420SP格式。
YUV 4:2:0采样，每四个Y共用一组UV分量,一个YUV占1.5个字节。
YUV 4:2:2采样，每两个Y共用一组UV分量,一个YUV占 2个字节。
YUV 4:4:4采样，每一个Y对应一组UV分量,一个YUV占3个字节。

1.YUV420P：(YU12(Android平台下叫I420格式)和YV12)一帧YUV420P（YU12）像素数据，包含wh3/2 Byte的数据，前wh Byte存储Y分量，接着wh 1/4存储U,最后wh1/4存储的是V。一帧YUV420P的图像Y:U:V = 4 :1:1
2.YUV444P：一帧YUV444P像素数据包含wh3 Byte的数据。前wh Byte存储Y，接着的wh Byte存储U，最后wh Byte存储V。一帧YUV420P的图像Y:U:V = 1:1:1
上面只是举例

YUV420 数据存储方式
Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y
Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y
Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y
Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y           Y Y Y Y Y Y
U U U U U U           V V V V V V           U V U V U V           V U V U V U
V V V V V V           U U U U U U           U V U V U V           V U V U V U
   (I420)                (YV12)                (N12)                 (NV21)

RGB

RGB相信大家都比较熟悉，他是颜色的三原色，“R”代表红色，“G”代表绿色，“B”代表蓝色，不同的分量颜色值搭配可以表示不同的颜色。
RGB24像素数据，RGB的分量是怎样存储的呢。上述我们YUV420P的存储分量是分开存储的（平面方式），而RGB每个像素的三个分量是连续存储的(打包方式)。一帧RGB24数据格式的图像，包含wh3Byte的数据，存储的顺序是第一个像素(8bit)R,(8bit)G,(8bit)B接着存储下一个像素点(8bit)R,(8bit)G,(8bit)B这样一次存储下去的。
小结：数据的存在格式可以分为packed（打包）和planar（平面）两种，上述的YUV420P,YUV444P就是属于平面的存储方式，RGB24属于打包的存储方式。YUV420(NV12、NV21）的数据存储既有平面又有打包，Y平面，UV打包，即Y信息存储在一个数组中，UV信息存储在一个矩阵中。了解了最基础的像素数据格式以及存储的分量的位置，便可以去处理操作图像。

音频采样数据PCM

PCM它是由模拟信号经过采样、量化、编码转换成的标准数字音频数据。
来了解一下PCM重要的属性：
1.Sample Rate : 采样率（一秒钟采样点的个数）8kHz，44.1kHz（CD音质），48kHz
2.Sample Size : 位宽度 8-bit,16-bit 一个点所占的bit位，位宽度越高声音保真度越高
3.Channels ：通道个数，包含立体声和单声道两种类型，立体声包含左声道和右声道
PCM数据存入的循序。如果是单声道的音频文件，采样数据按时间的先后顺序依次存入，如果是双声道的话就按照LRLRLR的方式存储。

pcm存储的循序.jpg

小结：了解PCM 数据的基础便能对音频进行操作，左右声道的分离，声音音量的调节，音频的截取等功能。

H.264视频压缩数据

简单的了解H.264。H.264是一种视频的压缩算法，内部实现的原理比较复杂，熵编码，环路滤波，帧内压缩，帧间压缩。
压缩步骤:
1.分组:把几帧图像分为一组(GOP，也就是一个序列),为防止运动变化,帧数不宜取多。
2.定义帧:将每组内各帧图像定义为三种类型,即I帧、B帧和P帧;
3.预测帧:以I帧做为基础帧,以I帧预测P帧,再由I帧和P帧预测B帧;（B帧图像位于I帧和P帧之间）
4.保存帧信息：I帧作为基础帧保留完整的数据信息（JPEG压缩编码）每组里面也只会存在一个I帧，P作为预测帧保存下来的信息就是于I帧的区别差异处，B帧根据I帧和P帧生成的帧所以是信息量最少的一个帧，压缩率最高的一个帧，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面。
到后面再去具体的分析H.264的码流结构

视频的常见封装格式

简单的可以把视频格式看做一个容器，它承载的是视频压缩数据与音频压缩数据，包括字幕，视频信息等。不同的格式数据封装的方法不同。常见的封装格式有MP4，m3u8,FlV,AVI等。