H264码流结构以及RTP封包

    之前的项目涉及流媒体传输,其中包括以前很多认识很浅的知识,包括RTP,RTSP以及H264码流结构!这一篇幅将通过网络归纳H264的码流结构,对264了解更深点,以便后期使用。

码流结构    

H264功能整体包含两层:网络提取层(NAL network abstraction layer)和视频编码层(VCL video coding layer)。其中VCL是264最原始的数据流;NAL层是VCL数据层按照格式封装至(NALU)NAL unit用于网络传输,一般一个RTP pkt传送一个NALU,并且可以独立片解码。

NALU是VCL层数据打包成RBSP(Raw ByteSequence Payload)原始数据载荷加上unit header,再在header前加上start code"00 00 00 01"或者"00 00 01"。如下形式:

[START CODE][HEADER][PAYLOAD]

unit header是1byte,通过它可以知道RBSP载荷的类型,网络传输是否有误以及是否被参考的帧。

forbidden_bit:初始值为0,接收方可以通过这一位得知是否发生bit错误。

nal_reference_bit:标识NAL单元的重要性,值越大说明越重要,当值为0解码可以抛弃。

 nal_unit_type :

 

nal_unit_type

 

NAL类型

nal_reference_bit

0

 

未使用

0

1

SLICE

非IDR图像中不采用数据划分的slice

此片属于参考帧,则不等于0,不属于参考帧,则等与0

2

SLICE_DPA

非IDR图像中A类数据划分的slice

同上

3

SLICE_DPB

非IDR图像中B类数据划分的slice

同上

4

SLICE_DPC

非IDR图像中C类数据划分的slice

同上

5

SLICE_IDR

IDR图像的slice

5

6

SEI

补充增强信息

0

7

SPS

序列参数集

非0

8

PPS

图像参数集

非0

9

 

分隔符

0

10

 

序列结束符

0

11

 

流结束符

0

12

 

填充数据

0

13-23

 

保留

0

24-31

 

未规定

 

其中type值为1,2,3,4,5,12为VCL NAL单元,type值为7,8分别标识序列参数集(SPS)和图像参数集(PPS),一般每次传输起始的两个NALU是SPS和PPS里面包含解码的关键信息包括帧数分辨率,编码模式以及初始化量化参数等等

H264码流结构以及RTP封包_第1张图片

如上图实例中"00 00 00 01 67"和"00 00 00 01 68"两个NALU分别是SPS和PPS。

RTP封包

项目应用过程涉及到264视频流通过RTP往网络上发送,这里面涉及到RTP的封包发送。

封包格式:

[RTP HEADER][PAYLOAD]

RTP header由12byte组成:

H264码流结构以及RTP封包_第2张图片

1)  V:RTP协议的版本号,占2位,当前协议版本号为2
2)  P:填充标志,占1位,如果P=1,则在该报文的尾部填充一个或多个额外的八位组,它们不是有效载荷的一部分。
3)  X:扩展标志,占1位,如果X=1,则在RTP报头后跟有一个扩展报头
4)  CC:CSRC计数器,占4位,指示CSRC 标识符的个数(作用信源CSRC计数器)
5)  M: 标记,占1位,不同的有效载荷有不同的含义,对于视频,标记一帧的结束;对于音频,标记会话的开始。(对于分组中的重要事件可用该位标识)
6)  PT: 有效荷载类型,占7位,用于说明RTP报文中有效载荷的类型,如GSM音频、JPEM图像等,在流媒体中大部分是用来区分音频流和视频流的,这样便于客户端进行解析。(H.264应该是96,AAC应该是97)
7)  序列号:占16位,用于标识发送者所发送的RTP报文的序列号,每发送一个报文,序列号增1。这个字段当下层的承载协议用UDP的时候,网络状况不好的时候可以用来检查丢包。同时出现网络抖动的情况可以用来对数据进行重新排序,序列号的初始值是随机的,同时音频包和视频包的sequence是分别记数的。
8)  时戳(Timestamp):占32位,必须使用90 kHz 时钟频率。时戳反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动,并进行同步控制。
9)  同步信源(SSRC)标识符:占32位,用于标识同步信源。该标识符是随机选择的,参加同一视频会议的两个同步信源不能有相同的SSRC。
10) 特约信源(CSRC)标识符:每个CSRC标识符占32位,可以有0~15个。每个CSRC标识了包含在该RTP报文有效载荷中的所有特约信源。

注:基本的RTP说明并不定义任何头扩展本身,如果遇到X=1,需要特殊处理

封包策略:

当包大小小于MTU(1500-100 byte)时,一个NALU封入一个RTP payload;当大于MTU时将NALU单元分配至多个RTP payload打包。

一个RTP包封一个NALU规则:RTP payload就是一个NALU。

H264码流结构以及RTP封包_第3张图片

上图表示单包模式,载荷第一字节就是nalu的header。

H264码流结构以及RTP封包_第4张图片

0x67:可知F bit是0,NRI是11,type是7(SPS)。

NALU分多个RTP包,RTP payload的规则如下:

H264码流结构以及RTP封包_第5张图片

 

FU indicator就是NALU header(图5)。

H264码流结构以及RTP封包_第6张图片

FU header:(图6)

H264码流结构以及RTP封包_第7张图片

S: 1 bit 当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开始,开始位设为0。
E: 1 bit 当设置成1, 结束位指示分片NAL单元的结束,即, 荷载的最后字节也是分片NAL单元的最后一个字节。当跟随的 FU荷载不是分片NAL单元的最后分片,结束位设置为0。
R: 1 bit 保留位必须设置为0,接收者必须忽略该位

下面通过实例展示:

0x7c(0111 1100)NRI是11,FU type是11100。0x85可以得知nal type 5(IDR)。

H264码流结构以及RTP封包_第8张图片

 

你可能感兴趣的:(RTP,H.264码流)