音视频基础概念

目录

  1. 常用的音频编码格式
  2. YUV数据格式
  3. 视频压缩编码
  4. IPB帧
  5. PTS和DTS
  6. GOP

1.常用的音频编码格式

  • WAV:因其文件扩展名为wav,微软和IBM联合开发的标准,数据本身的格式为PCM或压缩型,属于无损格式。
  • MP3:MPEG-1 Audio Layer 3,1991年德国研究组织Fraunhofer-Gesellschaft发明和标准化的,当前主流的音频格式,压缩比4:1~10:1之间。
  • AAC:Advanced Audio Coding, 出现于1997年,由Fraunhofer IIS、杜比实验室、AT&T、Sony、Nokia等公司共同开发。AAC压缩比通常为18:1,AAC是一个庞大家族,他们共分为9种规格,以适应不同场合的需要。
  • Opus:Opus格式是一个开放格式,使用上没有任何专利或限制,比MP3、AAC、HE-AAC等常见格式,有更低的延迟和更好的声音压缩率。2012年7月2日,Opus被IETF批准用于标准化。

2. YUV数据格式

传送门:YUV数据格式

3. 视频压缩编码

视频压缩是通过去除冗余信息包括空间上和时间上的冗余信息。

4. IPB帧

  • I帧:帧内编码帧(intra picture),采用帧内压缩去掉空间冗余信息。
  • P帧:前向预测编码帧(predictive-frame),通过将图像序列中前面已经编码帧的时间冗余信息来压缩传输数据量的编码图像。参考前面的I帧或者P帧。
  • B帧:双向预测内插编码帧(bi-directional interpolated prediction frame),既考虑源图像序列前面的已编码帧,又顾及源图像序列后面的已编码帧之间的冗余信息,来压缩传输数据量的编码图像,也称为双向编码帧。参考前面一个的I帧或者P帧及其后面的一个P帧。

5. PTS和DTS

  • DTS(Decoding Time Stamp)是标识读入内存中bit流在什么时候开始送入解码器中进行解码。
  • PTS(Presentation Time Stamp)用于度量解码后的视频帧什么时候被显示出来。在没有B帧的情况下,DTS和PTS的输出顺序是一样的,一旦存在B帧,PTS和DTS则会不同。

6. GOP

两个I帧之间的一组图片,就是GOP(Group Of Picture)的概念。通常在为编码器设置参数时,必须设置gop_size的值,其表示两个I帧之间的帧数目。

一般来说,I帧的压缩率是7,P是20,B可以达到50,可见使用B帧能节省大量空间,节省出来的空间可以用来更多地保存I帧,这样就能在相同的码率下提供更好的画质。

例子:

下面给出一个GOP为15的例子,其解码的参照frame及其解码的顺序都在里面:


音视频基础概念_第1张图片
image

如上图:I帧的解码不依赖于任何的其它的帧,而P帧的解码则依赖于其前面的I帧或者P帧。
B帧的解码则依赖于其前面的最近的一个I帧或者P帧及其后的最近的一个P帧。

6.1 Open-GOP和Close-GOP

Open-GOP:informal structure. 在一个GOP里面的某一帧在解码时要依赖于前一个GOP中的某一些帧,这种GOP结构叫做Open-GOP。一般码流里面含有B帧的时候才会出现Open-GOP
例如:IBBPBBP

Close-GOP: formal structure.在一个GOP里面的某一帧的解码不依赖前一个GOP中的帧。

例如:BBIBBPBB,IDR BBPBB、

在H.264的GOP中,所有的GOP都是独立解码的,与其他GOP无关,即它们都是“封闭”的。但是在HEVC中,GOP的结构发生了变化,采用了“开放”的结构,在解码过程过可能会参考其他GOP的数据。

7. 参考

你可能感兴趣的:(音视频基础概念)