H264
1、H264一个图像序列的组成:SPS+PPS+SEI+一个I帧+若干个P帧。SPS、PPS、SEI、一个I帧、一个P帧都
可以称为一个NALU。
2、H264的NALU结构:开始码+NALU头+NALU数据
(1)、开始码大小为四个字节,是一个固定值00 00 00 01(十六进制),标识一个NALU的开始。
(2)、NALU头大小为一个字节,前3位暂不讨论,后5位为type位,标识当前NALU的类型。
(3)、NALU数据为编码器编出来的图像信息或图像数据。
3、五种类型的NALU
(1)、SPS(序列参数集):NALU头值为0x67(十六进制),NALU头type位值为7(十进制)。
(2)、PPS(图像参数集):NALU头值为0x68(十六进制),NALU头type位值为8(十进制)。
(3)、SEI(补充增强信息):NALU头值为0x06(十六进制),NALU头type位值为6(十进制)。
(4)、I帧:NALU头值为0x65(十六进制),NALU头type位值为5(十进制)。
(5)、P帧:NALU头值为0x61(十六进制),NALU头type位值为1(十进制)。
4、H264的NALU打包成RTP包的模式(下面是用到的两种模式)
(1)、一个NALU打包成一个RTP包,只需要在一个12字节的RTP包头后添加去掉开始码的NALU即可
(这种模式在一个NALU的大小小于MTU时使用)。
(2)、一个NALU打包成几个RTP包(FU_A模式),在12个字节的RTP头后面加上一个字节的
FU indicator和一个字节的FU header。FU indicator前3位是NALU头的前3位,后5位是28(十进制),
FU header第1位标记RTP包是否为NALU的第一片,第2位标记RTP包是否为NALU的最后一片。第3位是保
留位,后5位是NALU头的type位。
H264参考:
1、RFC文档:RFC3984
2、H264编码
2.1、编码过程分两层:视频编码层(VCL)和网络抽象层(NAL)
2.1.1、VCL
VCL包含Codec的信令处理功能;以及如转换,量化,运动补偿预测机制;以及循环
过滤器。他遵从今天大多数视频codec的一般概念,基于宏快的编码器,使用基
于运动补偿的图像间预测和残余信号的转换编码。VCL编码器输出片断: 一个位
串包含整数数目宏快的宏块数据,以及片断头信息(包含片断内第一个宏快的空
间地址, 初始量化参数以及相似信息). 片断内的宏快按照扫描顺序安排,除非
指定一个不同的宏块分配,通过使用被称为灵活宏块顺序语法Flexible
Macroblock Ordering syntax.图像内的预测只用于一个片断内部。
2.1.2、NAL
(NAL)编码器封装VCL编码器输出的片断到网络抽象层单元(NAL units),它适
合于通过包网路传输或用于面向包的多路复用环境。
NAL使用NAL单元. 一个NAL单元由一字节的头和荷载字节串组成。 头指示
NAL单元的类型, 是否有位错误或语法冲突在NAL单元荷载中,以及对于解码过
程该NAL单元相对重要性的信息。
2.2、参数集
H.264规范包括两类参数集:顺序参数集和图像参数集。一个活动顺序参数集在一个编
码视频序列中保持不变,一个活动图像参数集在一个编码图像里保持不变。顺序
和图像参数集结构包含如图像大小,采用的可选的编码模式,宏块到片断组映射
等信息。
2.3、NAL单元
2.3.1NAL单元的头是一个字节
±--------------+
|0|1|2|3|4|5|6|7|
±±±±±±±±+
|F|NRI| Type |
±--------------+
F: 1 bit
forbidden_zero_bit. H.264规范声明设置为1指示语法违例。
NRI: 2 bits
nal_ref_idc. 00值指示NAL单元的不用于帧间图像预测的重构参考图
像。这样的NAL单元可以被丢弃而不用冒参考图像完整性的风险。大于0的值指
示NAL单元的解码要求维护参考图像的完整性。
Type: 5 bits
nal_unit_type. 本部件指定NAL单元荷载类型。
H264 RTP参考:
H.264 视频 RTP 负载格式
H.264 Payload 格式定义了三种不同的基本的负载(Payload)结构. 接收端可能通过 RTP Payload
的第一个字节来识别它们. 这一个字节类似 NALU 头的格式, 而这个头结构的 NAL 单元类型字段
则指出了代表的是哪一种结构,
这个字节的结构如下, 可以看出它和 H.264 的 NALU 头结构是一样的.
±--------------+
|0|1|2|3|4|5|6|7|
±±±±±±±±+
|F|NRI| Type |
±--------------+
字段 Type: 这个 RTP payload 中 NAL 单元的类型. 这个字段和 H.264 中类型字段的区别是, 当 type
的值为 24 ~ 31 表示这是一个特别格式的 NAL 单元, 而 H.264 中, 只取 1~23 是有效的值.
24 STAP-A 单一时间的组合包
24 STAP-B 单一时间的组合包
26 MTAP16 多个时间的组合包
27 MTAP24 多个时间的组合包
28 FU-A 分片的单元
29 FU-B 分片的单元
30-31 没有定义
可能的结构类型分别有:
如有一个 H.264 的 NALU 是这样的:
[00 00 00 01 67 42 A0 1E 23 56 0E 2F … ]
这是一个序列参数集 NAL 单元. [00 00 00 01] 是四个字节的开始码, 67 是 NALU 头, 42 开始的数据是 NALU 内容.
封装成 RTP 包将如下:
[ RTP Header ] [ 67 42 A0 1E 23 56 0E 2F ]
即只要去掉 4 个字节的开始码就可以了.
2.2 组合封包模式
其次, 当 NALU 的长度特别小时, 可以把几个 NALU 单元封在一个 RTP 包中.
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| RTP Header |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|STAP-A NAL HDR | NALU 1 Size | NALU 1 HDR |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| NALU 1 Data |
: :
+ +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| | NALU 2 Size | NALU 2 HDR |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| NALU 2 Data |
: :
| +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| :...OPTIONAL RTP padding |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
2.3 Fragmentation Units (FUs).
而当 NALU 的长度超过 MTU 时, 就必须对 NALU 单元进行分片封包. 也称为 Fragmentation Units (FUs).
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| FU indicator | FU header | |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |
| |
| FU payload |
| |
| +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| :...OPTIONAL RTP padding |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
Figure 14. RTP payload format for FU-A
The FU indicator octet has the following format:
±--------------+
|0|1|2|3|4|5|6|7|
±±±±±±±±+
|F|NRI| Type |
±--------------+
The FU header has the following format:
±--------------+
|0|1|2|3|4|5|6|7|
±±±±±±±±+
|S|E|R| Type |
±--------------+
3.3 profile-level-id:
这个参数用于指示 H.264 流的 profile 类型和级别. 由 Base16(十六进制) 表示的 3 个字节. 第一个字节表示 H.264 的 Profile 类型, 第
三个字节表示 H.264 的 Profile 级别:
3.4 max-mbps:
这个参数的值是一个整型, 指出了每一秒最大的宏块处理速度.
H264 SDP参考:
使用RTP传输H264的时候,需要用到sdp协议描述,其中有两项:Sequence Parameter Sets (SPS) 和Picture Parameter Set (PPS)需要用到,那么这两项从哪里获取呢?答案是从H264码流中获取.在H264码流中,都是以"0x00 0x00 0x01"或者"0x00 0x00 0x00 0x01"为开始码的,找到开始码之后,使用开始码之后的第一个字节的低5位判断是否为7(sps)或者8(pps), 及data[4] & 0x1f == 7 || data[4] & 0x1f == 8.然后对获取的nal去掉开始码之后进行base64编码,得到的信息就可以用于sdp.sps和pps需要用逗号分隔开来.
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
如何解析SDP中包含的H.264的SPS和PPS串
http://www.pernet.tv.sixxs.org/thread-109-1-1.html
SDP中的H.264的SPS和PPS串,包含了初始化H.264解码器所需要的信息参数,包括编码所用的profile,level,图像的宽和高,deblock滤波器等。
由于SDP中的SPS和PPS都是BASE64编码形式的,不容易理解,附件有一个工具软件可以对SDP中的SPS和PPS进行解析。
用法是在命令行中输入:
spsparser sps.txt pps.txt output.txt
例如sps.txt中的内容为:
Z0LgFNoFglE=
pps.txt中的内容为:
aM4wpIA=
最终解析的到的结果为:
Start dumping SPS:
profile_idc = 66
constrained_set0_flag = 1
constrained_set1_flag = 1
constrained_set2_flag = 1
constrained_set3_flag = 0
level_idc = 20
seq_parameter_set_id = 0
chroma_format_idc = 1
bit_depth_luma_minus8 = 0
bit_depth_chroma_minus8 = 0
seq_scaling_matrix_present_flag = 0
log2_max_frame_num_minus4 = 0
pic_order_cnt_type = 2
log2_max_pic_order_cnt_lsb_minus4 = 0
delta_pic_order_always_zero_flag = 0
offset_for_non_ref_pic = 0
offset_for_top_to_bottom_field = 0
num_ref_frames_in_pic_order_cnt_cycle = 0
num_ref_frames = 1
gaps_in_frame_num_value_allowed_flag = 0
pic_width_in_mbs_minus1 = 21
pic_height_in_mbs_minus1 = 17
frame_mbs_only_flag = 1
mb_adaptive_frame_field_flag = 0
direct_8x8_interence_flag = 0
frame_cropping_flag = 0
frame_cropping_rect_left_offset = 0
frame_cropping_rect_right_offset = 0
frame_cropping_rect_top_offset = 0
frame_cropping_rect_bottom_offset = 0
vui_parameters_present_flag = 0
Start dumping PPS:
pic_parameter_set_id = 0
seq_parameter_set_id = 0
entropy_coding_mode_flag = 0
pic_order_present_flag = 0
num_slice_groups_minus1 = 0
slice_group_map_type = 0
num_ref_idx_l0_active_minus1 = 0
num_ref_idx_l1_active_minus1 = 0
weighted_pref_flag = 0
weighted_bipred_idc = 0
pic_init_qp_minus26 = 0
pic_init_qs_minus26 = 0
chroma_qp_index_offset = 10
deblocking_filter_control_present_flag = 1
constrained_intra_pred_flag = 0
redundant_pic_cnt_present_flag = 0
transform_8x8_mode_flag = 0
pic_scaling_matrix_present_flag = 0
second_chroma_qp_index_offset = 10
/
这里需要特别提一下这两个参数
pic_width_in_mbs_minus1 = 21
pic_height_in_mbs_minus1 = 17
分别表示图像的宽和高,以宏块(16x16)为单位的值减1
因此,实际的宽为 (21+1)*16 = 352
spsparser.rar
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
http://krdai.info.sixxs.org/blog/mp4-sps-pps-data.html
最近在做跟 h264 encode/decode 相關的研究,目標是希望可以從 Android 的 MediaRecorder 當中取出 h264 的資訊。目前問題是在於 SPS 以及 PPS 到底要怎樣得到。由於 MediaRecorder 是寫入 mp4 檔案中,所以不得已只好來去分析一下 mp4 的檔案格式,發現沒有想像中的困難. 主要是參照 ISO/IEC 14496-15 這部份. 在 mp4 的檔案之中, 找到 avcC 這個字串, 之後就是接上 AVCDecoderConfigurationRecord. AVCDecoderConfigurationRecord 的 format 如下:
[cpp] view plaincopy
aligned(8) class AVCDecoderConfigurationRecord {
unsigned int(8) configurationVersion = 1;
unsigned int(8) AVCProfileIndication;
unsigned int(8) profile_compatibility;
unsigned int(8) AVCLevelIndication;
bit(6) reserved = '111111’b;
unsigned int(2) lengthSizeMinusOne;
bit(3) reserved = '111’b;
unsigned int(5) numOfSequenceParameterSets;
for (i=0; i< numOfSequenceParameterSets; i++) {
unsigned int(16) sequenceParameterSetLength ;
bit(8sequenceParameterSetLength) sequenceParameterSetNALUnit;
}
unsigned int(8) numOfPictureParameterSets;
for (i=0; i< numOfPictureParameterSets; i++) {
unsigned int(16) pictureParameterSetLength;
bit(8pictureParameterSetLength) pictureParameterSetNALUnit;
}
}
對照一下這樣就可以找到 SPS 和 PPS
+++++++++++++++++++++++++++++++++++++++++++++
h264的SPS/PPS
与分辨率有关
与帧率无关(与帧率是否有关主要看sps中某个字段的值,当前海思编出的sps中该字段值标识与帧率无关)
与N/P制无关
1、4M
Payload: 674d003295a80a002d69b808080810
Payload: 68ee3c80
2、4M_4x3
Payload: 674d003295a809003669b808080810
Payload: 68ee3c80
3、3M
Payload: 674d003295a808003069b808080810
Payload: 68ee3c80
4、1080P
Payload: 674d002a95a81e0089f966e020202040
Payload: 68ee3c80
5、960P
Payload: 674d002095a81401e69b80808081
Payload: 68ee3c80
6、720P
Payload: 674d001f95a814016e9b80808081
Payload: 68ee3c80
7、D1
Payload: 674d001e95a82c049a6e02020204
Payload: 68ee3c80
8、CIF
Payload: 674d001495a85825a6e020202040
Payload: 68ee3c80
5M
67 4d 0 32 95 a8 a 20 3d 7e 59 b8 8 8 8 10 0 0 0 1 68 ee 3c 80 0 0 0 1 6 e5 1 cc 80 0 0 0 1 65 b8 0 0 c 29 51 ff da 9c 5f 6f 9f cf ff ef a7 c7 61 ba 71 b9 97 56 34 4c ea 1a f1 36 e8 19 54 8b 50 bc 8c 28 6c df ec d1 28 4 e9 96 67 f7 28 59 51 5f fd 45 b f7 df ce ae 94 94 ed e1