本篇隶属于文集:《H264/AVC 句法和语义详解》,查看文集全部文章,请点击文字链接。
想看最新文章,可以直接关注微信公众号:金架构
从这一篇开始,我们详细的讲解H.264/AVC 比特码流的句法和语义,可以说,能够学习并掌握H.264的句法和语义,是能彻底掌握并应用H.264的关键。在前面几篇文章中,我们只是从理论层面,介绍了H.264、片、宏块、帧内预测、帧间预测。而在句法和语义中,我们就可以拿到H.264编码之后的裸流,用理论加实践的方式,一步步探索H.264的编解码实现过程。
而在这篇文章里呢,我们就先从宏观的角度,来看看使用H.264编码之后,得到的裸流的分层结构是什么样的。不过在开始之前,我们先从最基本的开始,来看看句法和语义,这两个词,分别代表什么意思?
我们可以拿我们每天说的语言来举例,比如以英语为例写个句子:
It is a beautiful day today.
恩,学过英文的都知道它表达什么意思,但是我们的重点不是这个。我们的重点是,如何用它来理解什么是句法和语义。首先我们对这个句子进行分析,它由六个单词组成,每个单词分别代表了一个意思,这是学习过英语的人的表达。假设我们没学过英语,我们会这么说,这个句子由六部分(或者六个元素)组成,每个元素有一个含义。
所以句法和语义分别是指什么呢?如果我不这样问,而是问句法元素和语义是指什么呢?你可能会恍然大悟。没错,句法元素在上面的英文句子里,可以理解为一个个单词,而语义就表示单词的含义。理解了句法元素和语义,再去理解句法就更简单啦,它就表示了句法元素的组织结构。
那这和H.264的句法和语义有什么关系呢?当然有关系!
首先我们要明白,上面那个英文句子,是我们人能够理解的人类语言。而H.264的比特流,是计算机能理解的二进制语言(可能使用机器语言能更好明白,但是机器语言现在一般指指令集体系)。所以归根结底,它们都属于一种语言,只不过表达的意思不同而已。
比如上面那个英文句子,它表达的意思是今天的天气真美好!而H.264的比特流,比如101111000101011111000(当然是瞎写的),它可能就在表达图像的宽或高、片的个数、宏块的大小、样点像素值等等。
当然具体在表达什么,我们需要学习了H.264的句法和语义之后才知道,所以学习H.264的句法和语义,其实就相当于在英语里背单词和学习英语语法。只不过H.264的语法和英语的语法不一样,我们需要学习了之后才知道。
要注意虽然我们可以把H.264的句法理解为语法,并且它的英文也确实为Syntax,表示语法、句法的意思。但是我们在H.264里还是通常用句法这一词,这是因为写过代码的都知道,在编程语言中也有各种语法,在H.264的比特流的编解码中,也会涉及到一系列编程语法。
所以为了避免歧义,我们在H.264里,分别使用句法,来表示句法元素的组织结构。用语法,来表示编程语言语法。
理解了句法和语义之后,我们就来看看H.264比特流的分层结构,这是开始学习H.264句法的第一步。我们的标题,分别使用句法元素和比特流这两个词,来描述分层结构,是因为我们可以站在两个维度来分析H.264的比特流。
在这一小节中,我们先站在句法元素的角度,来分析一下它的分层结构。
为什么可以站在句法元素的角度来分析?
我们通过第一小节知道,在H.264的比特码流中,分析单个的比特是没有意义的,只有分析由比特组成的句法元素,并且了解其语义,才能知道这段比特流表达了什么。所以我们可以简单的视为,码流就是由一个个句法元素依次衔接组成的。只要理解了这一层关系,那么接下来的工作就简单多了!
我们都知道(MPEG-1、2也讲过),视频是由视频序列组成的,而视频序列又由一帧帧图像组成,图像又由片组成,片由宏块组成,宏块由子宏块组成。
既然一段码流,由多个句法元素组成,那这段码流表示了什么呢?它是表示了一个序列,还是一帧图像,还是片、宏块或子宏块?这就要涉及到这一小节的标题了,也就是句法元素的分层结构。在讲H.264的句法元素分层结构之前,我们先看看之前标准的分层结构。
上图就是在之前标准中的分层结构,可以看到句法元素同画面的划分一样,被组织成了有层次的结构,这种结构有助于更高效的节省码流。但是这样的结构,有几个很大的缺点:
(1)在每一层中,数据和它的头部,形成强依赖关系,一旦头部丢失,数据部分也不可能正确被解码。
(2)在序列层及图像层,因为数据量过大,不可能将所有的句法元素一次传输,这时假如头部所在的分组丢失,那么该层其他的数据,即使能正确接收也无法解码。
(3)图像层内的各个片之间,经常会携带相同的数据,造成码流的浪费。
所以在此基础上,H.264取消了图像层和序列层,取而代之的,将原本属于图像层和序列层的大部分句法元素,抽取出来形成图像参数集和序列参数集,其余的部分,则放入片层。
下图为H.264图像参数集和序列参数集,与片中句法元素的关系:
从图中可以看到,同一个序列参数集可以被多个序列中的图像参数集引用,同一个图像参数集也可以被多个图像引用。所以我们在打开H.264码流文件时会看到,序列参数集和图像参数集位于码流的最前面。如果编码器认为需要更新参数集时,会发送新的参数集。
在这种引用关系中,被引用方在时间上必须先被发送,所以在H.264建议中,参数集和参数集外部的句法元素,分别处于不同的信道中传输。
除了在参数上的改进,H.264在片层以下的句法元素上的结构,和之前的标准类似。而且因为取消了图像层,片成为携带图像像素数据的,最上层的数据单位。并且每个片必须携带所属的图像的编号、大小等信息,这些信息在同一个图像的每个片中必须是一致的。
以上就是H.264的句法元素的分层结构,它分别为序列、图像、片、宏块、子宏块这5个层次。
当然有的同学一下并不能完全理解,句法元素的分层结构是指什么,那是因为要想完全理解,还要结合之后要讲的NALU,以及序列、图像、片、宏块、子宏块这些层次,具体包含哪些句法元素,以及句法元素的语义是什么。而在这里,我们可以先简单的理解为,图像引用序列,片引用图像,同时片包含宏块,宏块包含子宏块。
H.264一直在更新,英语底子好的同学,可以直接根据下面的链接,去ITU的官网上下载最新版。
http://www.itu.int/rec/T-REC-H.264
当然即使英语好,也不一定能看懂文档在讲啥,因为有好多专业词汇。所以我们可以下载个中文版,但是最新的17版没有中文版,我们下个05版的中文版就足够了。撸一遍05的中文版后,再撸一遍最新的英文版就轻松多了
http://www.itu.int/rec/T-REC-H.264-200503-S/en