一、RTP协议概述
RTP(Real-time Transport Protocol)实时传输协议,由IETF的多媒体传输工作小组发布的网络传输协议,标准为RFC3550/3551。RTP协议支持TCP和UDP两种传输方式,RTP协议负责对流媒体数据进行封包并实现媒体流的实时传输,但并不能为按顺序传送的数据包提供可靠的传送机制,也不提供流量和拥塞控制,这些是依靠RTCP协议来完成的,两者配合使用。本文主要从数据处理的角度实现对H.264的RTP封装进行详细介绍。
二、RTP协议解析
RTP协议是由RTP Header和RTP Payload两部分组成的,具体如下图所示:
RTP Header | RTP Payload |
---|
1、RTP Header
RTP头部前12个字节的含义是固定的,具体的含义如下所示:
V:RTP协议的版本号,占2位,当前协议版本号为2。
P:填充标志,占1位,如果P=1,则在该报文的尾部填充一个或多个额外的八位组,它们不是有效载荷的一部分。
X:扩展标志,占1位,如果X=1,则在RTP报头后有一个扩展头。
CC:CSRC计数器,占4位,指示CSRC 标志符的个数。
M: 标记,占1位,不同的有效载荷有不同的含义,对于视频,标记一帧的结束;对于音频,标记会话的开始。
PT: 有效荷载类型,占7位,用于说明RTP报文中有效载荷的类型。
sequence number:序列号,占16位,用于表示发送者所发送的RTP报文的序列号,每发送一个报文,序列号增1。这个字段当下层的承载协议用UDP的时候,网络状况不好的时候可以用来检查丢包。同时出现网络抖动的情况可以用来对数据进行重新排序,序列号的初始值是随机的,同时音频包和视频包的sequence是分别计数的。
timestamp:相对时间戳,占32位,反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动,并进行同步控制。
SSRC:同步信源标识符,占32位,用于标志同步信源。该标识符是随机选择的,参加同一视频会议的两个同步信源不能有相同的SSRC。
CSRC:特约信源标志符,每个CSRC标识符占32位,可以有0~15个。每个CSRC表示了包含在该RTP报文有效载荷中的所有特约信源。
2、RTP Payload
RTP Payload负载有很多形式,可以传输编码的数据如视频H264、H265、音频G711A(U)、AAC等数据,也可以传输封装好的数据,如GB28181中常用的PS流等,本文接下来介绍一下RTP Payload Format for H.264 Video(ES流)的具体实现形式。H264的NALU作为RTP Payload负载,结构类型如下图所示:
rtp payload数据包的形式主要包含以下三种:
(1) 单个NALU包模式
rtp payload 仅由一个完整NALU单元组成,这种情况一般用于H264 NALU单元小于MTU(Maximum Transmission Unit,最大传输单元)时,而且RTP Payload Header 类型字段和原始的 H.264的NALU Header类型字段是一样的,此时仅需要把NALU单元的开始头去掉,加上RTP Header即可。
示例:
一个H264的原始NALU单元如下所示:
【00 00 00 01 67 4d 00 2a 96 35 40 f0 04 4f ......】
这是一个SPS类型的H264 NAL单元,封装为RTP包如下所示:
【RTP Header】【67 4d 00 2a 96 35 40 f0 04 4f ......】
(2)组合包模式
开头1个字节表示NAL单元类型,接着1个或多个聚合单元,后面是可选的RTP填充,组合包模式有以下四种类型:
组合包模式是当H264 NALU单元的长度较小时,将几个NALU单元封装在一个RTP数据包中,以STAP-A为例进行详细介绍。
单时刻聚合包(STAP-A)应该用于当聚合在一起的NAL单元共享相同的NALU时间。STAP-A荷载不包括DON(Decoding Order Number),并且至少包含一个单时刻聚合单元,如下图所示:
single-time aggregation unit的格式如下图所示:
NAL unit size:表示NAL unit的长度,不包含其本身。
NAL unit:H264 NALU单元
一个RTP包含一个STAP-A组合包,一个STAP-A包含两个单时间聚合单元的示例如下图所示:
具体数据示例:
【00 00 00 01 67 42 C0 1F 8C 8D 40 48 14 B2 F0 0F 08 84 6A】
【00 00 00 01 68 CE 3C 80】
将以上SPS、PPS两个H264 NAL单元封装成STAP-A形式如下所示:
【RTP Header】【78 00 0F 67 42 C0 1F 8C 8D 40 48 14 B2 F0 0F 08 84 6A 00 04 68 CE 3C 80 】
78:第一位表示F为,值为0;第二三位表示NRI重要程度;后五位Type,值为24,表示STAP-A类型。
00 0F:NALU 1 size
67:NALU 1 HDR
42 C0 1F 8C 8D 40 48 14 B2 F0 0F 08 84 6A:NALU 1 data
00 04:NALU 2 size
68:NALU 2 HDR
CE 3C 80:NALU 2 data
(3)分包模式
当H264 NALU 的长度超过 MTU 时, 就必须对 NALU 单元进行分片封包. 也称为 Fragmentation Units ,主要包含FU-A和FU-B两种形式,FU-A分包格式如下图所示:
FU indicator的格式如下图所示:
F:禁止位,与NALU Header的F位一致
NRI:重要程度,与NALU Header的NRI一致
Type:分包类型,28表示FU-A类型,29表示FU-B类型
FU header的格式如下图所示:
S:占1bit,值为1,表示NAL分包的开始,其余情况值为0。
E:占1bit,值为1,表示NAL分包的结束,其余情况为0。
R:占1bit,值为0,表示保留位。
Type:占5bit,值为H264 NALU Header中的Type。
具体数据示例:
【00 00 00 01 65 b8 00 01 4d 00 00 ff bc 5d......】
将H264 I帧进行分包,具体的分包多少由I帧的数据长度和设置分包大小决定,示例如下所示:
【RTP Header】【7c 85】【H264 Payload Data】
【RTP Header】【7c 05】【H264 Payload Data】
【RTP Header】【7c 45】【H264 Payload Data】
7c 85:表示分包开始包。
7c 05:表示分包中间包。
7c 45:表示分包结束包。
三、H264封装示例
读取一个H264文件,封装为RTP协议格式进行传输,具体实现如下所示:
1、SPS、PPS采用单包模式发送。
2、I帧、P帧采用FU-A分包模式发送。
3、注意RTP Header中Mark标记位的设置和相对时间戳的设置。