转载自https://www.jianshu.com/p/9522c4a7818d

1、简介

H.264/AVC项目的目的是为了创建一个比以前的视频压缩标准，在更低的比特率的情况下依然能够提供良好视频质量的标准（如，一半或者更少于MPEG-2,H.263，或者MPEG-4 Part2）。同时，还要不会太大的增加设计的复杂性。
优势：
1）网络亲和性，即可适用于各种传输网络；
2）高的视频压缩比，当初提出的指标是比 H.263，MPEG-4，约为它们的 2 倍，现在都已基本实现；

需要视频压缩的原因也很简单，因为未经编码的文件体积太大一般视频为了不让观众感觉到卡顿，一秒钟至少需要24帧画面（一般是30帧），假如该视频是一个1280x720分辨率的视频，那么不经过编码一秒钟的大小：84.375MB

(1280 * 720 * 32 * 24) / (1024 * 1024) = 675Mbps

(675Mbps *1s) / 8 = 84.375MB

以32位色彩位深为例，每一个像素的数据大小是32bit（红绿蓝三原色各占8bit，亮度占8bit），也就是4字节（Byte）

带宽是以 bit 为单位，因此占用带宽约675兆/秒，如果视频不经过压缩直接在网络上传输，那只有千兆网才能看得起直播了！这肯定不行，所以我们要进行压缩，而 H.264 不仅压缩比比较高，对网络的兼容性也非常好，所以大多数人做直播也就选择了 H.264 作为编码格式了。

2、编码流程（不懂反正）

那么 H.264 其编解码流程是怎么样的呢？其实可以主要分为 5 部分：帧间和帧内预测（Estimation）、变换（Transform）和反变换、量化（Quantization）和反量化、环路滤波（Loop Filter）、熵编码（Entropy Coding）。

3、原理简介

H.264原始码流(又称为裸流)，是有一个接一个的NALU组成的，而它的功能分为两层:视频编码层(VCL, Video Coding Layer)和网络提取层(NAL, Network Abstraction Layer)。
VCL 数据即编码处理的输出，它表示被压缩编码后的视频数据序列。在 VCL 数据传输或存储之前，这些编码的 VCL 数据，先被映射或封装进 NAL 单元(以下简称 NALU，Nal Unit) 中。每个 NALU 包括一个原始字节序列负荷(RBSP, Raw Byte Sequence Payload)、一组对应于视频编码的 NALU 头部信息。RBSP 的基本结构是:在原始编码数据的后面填加了结尾比特。一个 bit“1”若干比特“0”，以便字节对齐。

NAL 单元序列

上图中的 NALU头 + RBSP 就相当与一个 NALU (Nal Unit), 每个单元都按独立的 NALU 传送。其实说白了，H.264 中的结构全部都是以 NALU 为主的，理解了 NALU，就理解 H.264 的结构了。

3.1、NALU与一帧图片

一帧图片经过 H.264 编码器之后，就被编码为一个或多个片（slice），而装载着这些片（slice）的载体，就是 NALU 了，我们可以来看看 NALU 跟片的关系（slice）。

一帧图片编码后

NALU结构

片（Slice）的概念不同与帧（frame），帧（frame）是用作描述一张图片的，一帧（frame）对应一张图片，而片（Slice），是 H.264 中提出的新概念，是通过编码图片后切分通过高效的方式整合出来的概念，一张图片至少有一个或多个片（Slice）。

上图中可以看出，片（Slice）都是又 NALU 装载并进行网络传输的，但是这并不代表 NALU 内就一定是切片，这是充分不必要条件，因为 NALU 还有可能装载着其他用作描述视频的信息。

3.2、切片

片的主要作用是用作宏块（Macroblock）的载体（ps：下面会介绍到宏块的概念）。片之所以被创造出来，主要目的是为限制误码的扩散和传输。
如何限制误码的扩散和传输？
每个片（Slice）都应该是互相独立被传输的，某片的预测（片（Slice）内预测和片（Slice）间预测）不能以其它片中的宏块（Macroblock）为参考图像。

那么片（Slice）的具体结构，用一张图来直观说明：

slice结构图

我们可以理解为一张/帧图片可以包含一个或多个分片(Slice)，而每一个分片(Slice)包含整数个宏块(Macroblock)，即每片（Slice）至少一个宏块(Macroblock)，最多时每片包含整个图像的宏块。

上图结构中，我们不难看出，每个分片也包含着头和数据两部分：
1、分片头中包含着分片类型、分片中的宏块类型、分片帧的数量、分片属于那个图像以及对应的帧的设置和参数等信息。
2、分片数据中则是宏块，这里就是我们要找的存储像素数据的地方。

3.3 、宏块

宏块是视频信息的主要承载者，因为它包含着每一个像素的亮度和色度信息。视频解码最主要的工作则是提供高效的方式从码流中获得宏块中的像素阵列。
组成部分：一个宏块由一个16×16亮度像素和附加的一个8×8 Cb和一个 8×8 Cr 彩色像素块组成。每个图象中，若干宏块被排列成片的形式。

看一下宏块的结构图：

宏块结构图

从上图中，可以看到，宏块中包含了宏块类型、预测类型、Coded Block Pattern、Quantization Parameter、像素的亮度和色度数据集等等信息。

3.4、切片跟宏块的关系

对于切片（Slice）来讲，分为以下几种类型：

I片：只包 I宏块，I 宏块利用从当前片中已解码的像素作为参考进行帧内预测(不能取其它片中的已解码像素作为参考进行帧内预测)；

P片：可包 P和I宏块，P 宏块利用前面已编码图象作为参考图象进行帧内预测，一个帧内编码的宏块可进一步作宏块的分割:即 16×16、16×8、8×16 或 8×8 亮度像素块(以及附带的彩色像素);如果选了 8×8 的子宏块，则可再分成各种子宏块的分割，其尺寸为 8×8、8×4、4×8 或 4×4 亮度像素块(以及附带的彩色像素)；

B片：可包 B和I宏块，B 宏块则利用双向的参考图象(当前和来的已编码图象帧)进行帧内预测；

SP片(切换P)：用于不同编码流之间的切换，包含 P 和/或 I 宏块；

SI片：扩展档次中必须具有的切换，它包了一种特殊类型的编码宏块，叫做 SI 宏块，SI 也是扩展档次中的必备功能；

4、整体结构

H.264码流分层结构图

其实 H.264 的码流结构并没有大家想的那么复杂，编码后视频的每一组图像（GOP，图像组）都给予了传输中的序列（PPS）和本身这个帧的图像参数（SPS），所以，我们的整体结构，应该如此：

GOP （图像组）主要用作形容一个 i 帧到下一个 i 帧之间的间隔了多少个帧，增大图片组能有效的减少编码后的视频体积，但是也会降低视频质量，至于怎么取舍，得看需求了。

5、总结

H.264 中，句法元素共被组织成序列、图像、片、宏块、子宏块五个层次。

视频编码H264结构