H.264 sequence parameter sets成员值含义学习笔记
sequence_parameter_set_rbsp_t结构体内成员及用途:
1. unsigned profile_idc:
它指的是码流对应的profile.
1.1 基线profile(Baseline profile)
遵循基线profile的码流应该遵循以下的约束:
a) 只有I和P切片存在
b) NAL单元流不应该有范围在2到4的nal_unit_type值,包括2和4.
c) 序列参数集(sps)的frame_mbs_only_fag(之后介绍)应该等于1
d) 图象参数值(psp)的weighted_pred_flag和weighted_bipred_idc都应该为0
e) 图象参数值(psp)的entropy_coding_mode_flag应该等于0
f) 图象参数值(psp)的num_slice_groups_minus1应该在0到7之间,包括0和7
**psp部分参数含义在关于psp的文章中给出。
g) 对于基线profile对应的level度应该满足.
符合基线profile的码流的profile_idc被赋66.符合一定level的基线Baseline的解码器应该可以解码所有的 profile_idc等于66的码流或constrained_set0_flag(等会介绍)为1而且level_idc(在level部分介绍)少于或等于一个指定的level的码流。
1.2 主profile(Main profile)
符合主profile的码流应该遵循以下的约束:
a) 只有I,P,B切片存在.
b) NAL单元流不包括nal_unit_type值范围在2-4之内的值。包括2和4.
c) 不能允许有随意顺序的切片
d) 图像参数集(psp)的num_slice_groups_minus1应该只为0
e) 图像参数集(psp)的redundant_pic_cnt_present_flag应该只为0
f) 对于主profile所要求的level级需要达到。
符合主profile的码流的profile_idc应为77。符合指定level的主profile的解码器应该可以解码所有的 profile_idc为77的或constrained_set1_flag值为1且level_idc值小于或等于指定level的码流。
1.3 扩展profile(Extended profile)
符合扩展profile的码流应该遵循以下的约束:
a) 序列参数集的direct_8x8_inference_flag值应该为1
b) 图像参数集的entropy_coding_mode_flag值应该为0
c) 图像参数集的num_slice_groups_minus1的值范围为0到7,包括0和7
d) 对于扩展profile指定的level级应该被达到
符合指定level级的扩展profile的解码器可以解码所有的profile_idc值为88的或constrained_set2_flag值为1的,而且level_idc小于等于指定level级的码流。
符合指定level级的扩展profile的解码器可以解码所有的profile_idc值为66的或constrained_set0_flag值为1的,而且level_idc小于等于指定level级的码流。
2. constrained_set0_flag
当constrained_set0_flag值为1的时候,就说明码流应该遵循基线profile(Baseline profile)的所有约束.constrained_set0_flag值为0时,说明码流不一定要遵循基线profile的所有约束。
3. constrained_set1_flag
当constrained_set1_flag值为1的时候,就说明码流应该遵循主profile(Main profile)的所有约束.constrained_set1_flag值为0时,说明码流不一定要遵循主profile的所有约束。
4. constrained_set2_flag
当constrained_set2_flag值为1的时候,就说明码流应该遵循扩展profile(Extended profile)的所有约束.constrained_set2_flag值为0时,说明码流不一定要遵循扩展profile的所有约束。
注意:当constraint_set0_flag,constraint_set1_flag或constraint_set2_flag中不只一个值为1的话,那么码流必须满足所有相应指明的profile约束。
5. level_idc
它指的是码流对应的level级.
5.1 独立于profile的level约束
让fR是这样一个变量:
a) 如果图像n是一帧,fR设为1/172
b) 如果图像n是一个场,fR设为1/(172*2)
任何profile下的指定的level都应该满足如下约束:
a) 理论上可访问单元n从CPB中的移除时间满足这样的约束:t(n)-t(n-1)要比Max(PicSizeInMbs,MaxMBPS,fR)值大或相等,MaxMBPS是说在level表中指出的对于图像n的值,PicSizeInMbs是指在图像n中的宏块数。
b) 如果图像n是一个输出图像而且它不是码流的最后一个输出图象,从DPB中取出的连续的输出图象差满足:Dt(n) >= Max(PicSizeInMbs, MaxMBPS, fR), MaxMBPS是指对于图象n来说的相应的值。PicSizeInMbs指图象n的宏块。
c) 对于可访问单元0的NumBytesInNALunit变量的总和少于或等于256*ChromaFormatFactor*(PicSizeInMbs +MaxMBPS*tr(0)-trn(0)/MinCR,MaxMBPS和MinCR是图象0在level表中相应的值,PicSizeInMbs是图象0的宏块数量。
d) 对于可访问单元n的NumBytesInNALunit值的总和是小于或等于256*ChromaFormatFactor*MaxMBPS*(tr(n)-trn(n-1))/MinCR,MaxMBPS和MinCR的值是图像n在level级表中对应的值。
e) PicWidthInMbs * FrameHeightInMbs <= MaxFS, MaxFS是在level表中指定的值。
f) PicWidthInMbs <= Sqrt(MaxFS * 8)
g) FrameHeightInMbs <= Sqrt(MaxFS * 8)
h) max_dec_frame_buffering <=MaxDpbSize, MaxDpbSize等于Min(1024 * MaxDPB / (PicWidthInMbs * FrameHeightInMbs * 256 * ChromaFormatFactor,16),MaxDPB是对于1024字节单元的MaxDPB值,max_dec_frame_buffering 也叫做DPB大小值。
i) 对于VCL HRD参数值,至少对于一个SchedSelIdx值来说,码率BitRate[SchedSelIdx] <= 1000 * MaxBR且CpbSize[SchedSelIdx] <= 1000 * MaxCPB。MaxBR和MaxCPB是对于1000bits/s和1000位单元对应于level级表的值。码流应该为0到 cpb_cnt_minus1中的一个值,包括0和cpb_cnt_minus1.CpbSize[SchedSelIdx]也叫做CPB大小值。
j) 对于NAL HRD参数来说,BitRate[SchSelIdx] <= 1200 * MaxBR且CpbSize[SchedSelIdx] <= 1200 * MaxCPB,MaxBR和MaxCPB是在1200bits/s和1200位的单元值在极限level下的值。码流应该满足至少SchedSelIdx 值从0到cpb_cnt_minus1中的一个值。
k) 在亮度帧采样中,垂直运动向量元素范围不能超过MaxVmvR,MaxVmvR值在level极限表中提供
l) 在亮度帧采样单元中,水平运动向量范围不能超过-2048到2047.75,包括-2048和2047.75。
m) 按解码顺序的两个连续的宏愉的运动向量的数量不超过MaxMvsPer2Mb(对于当前宏块的最后一个切片和下一个宏块的第一个切片也适用),MaxMvsPer2Mb值在level极限表中提供.
n) 对于任何宏块的macroblock_layer()的位数值都不能大于128 + 2048 * ChromaFormatFactor.依赖于entropy_coding_mode_flag值,macroblock_layer()的值由如下方式计算
如果entropy_coding_mode_flag值为0的话,macroblock_layer()的值由macroblock_layer()的对于一个macroblock的语法结构给出
其他情况下,对于一个宏块的macroblock_layer()值是由read_bits(1)给出的.
5.2 与profile相关的level级
对于基线profile,主profile和扩展profile的相应的level级约束在H.264的文档中有表可查。
6. seq_parameter_set_id
seq_parameter_set_id指定了由图像参数集指明的序列参数集。seq_parameter_set_id值应该是从0到31,包括0和31
注意: 当可用的情况下,编码器应该在sps值不同的情况下使用不同的seq_parameter_set_id值,而不是变化某一特定值的seq_parameter_set_id的参数集的语法结构中的值。
7. log2_max_frame_num_minus4
log2_max_frame_num_minus4指定了变量MaxFrameNum的值,MaxFrameNum = 2(log2_max_frame_num_minus4+4)
log2_max_frame_num_minus的值应该在0到12之间,包括0和12.
8. pic_order_cnt_type
pic_order_cnt_type指定了解码图像顺序的方法。pic_order_cnt_type的值是0,1,2。
pic_order_cnt_type在当一个编码视频序列有如下限定时不为2
a) 包含非参考帧的可访问单元,并紧接着一个包含非参考可访问单元
b) 两个可访问单元,它们分别包含两个场中的一个,它们一块儿组成了一个互补的非参考场对,被紧接着一个包括非参考图像的可访问单元。
c) 一个包含非参考场的可访问单元,并紧接着一个包含另一个非参考图像的可访问单元,它们不组成互补的非参考场对。
9. log2_max_pic_order_cnt_lsb_minus4
log2_max_pic_order_cnt_lsb_minus4指出变量MaxPicOrderCntLsb的值,它是在解码过程中使用到的图像顺序计算值:
MaxPicOrderCntLsb = 2(log2_max_pic_order_cnt_lsb_minus4+4)
log2_max_pic_order_cnt_lsb_minus4的值为包括0和12以及它们之间的值。
10. delta_pic_order_always_zero_flag
delta_pic_order_always_zero_flag等于1的时候表示当delta_pic_order_cnt[0]和 delta_pic_order_cnt[1]在序列的切片头中不存在,并被认为是0。 delta_pic_order_always_zero_flag值等于0时表示delta_pic_order_cnt[0]在序列的切片头中存在而 delta_pic_order_cnt[1]可能在序列的切片头中存在。
11. offset_for_non_ref_pic
offset_for_non_ref_pic被用来计算一个非参考图像的图像顺序值。offset_for_non_ref_pic值取值范围为(-2)^(31)到2^(31)-1,包括边界值。
12. offset_for_top_to_bottom_field
offset_for_top_to_bottom_field被用来计算一帧中的下场的图像顺序值。offset_for_top_to_bottom_field值的取值范围为(-2)^(31)到(2)^(31)-1,包括边界值。
13. num_ref_frames_in_pic_order_cnt_cycle
num_ref_frames_in_pic_order_cnt_cycle在解码过程中被用来计算图像顺序值。num_ref_frames_in_pic_order_cnt_cycle在0到255之间取值,包括边界值。
14. offset_for_ref_frame[i]
offset_for_ref_frame[i]是一列num_ref_frames_in_pic_order_cnt_cycle中的一个元素,它被在解码过程的解码顺序值中使用。offset_for_ref_frame[i]的值为(-2)^31到(2)^(31)-1,包括边界值。
15. num_ref_frames
num_ref_frames指定了长期的和短期的参考帧的最大总数目,互补的参考场对和在解码过程中对于任何序列使用的帧间预测的非配对的参考场。 num_ref_frames也决定了滑动窗口的操作大小过程。num_ref_frames值在0-16之间,包括边界值。
16. gaps_in_frame_num_value_allowed_flag
gaps_in_frame_num_value_allowed_flag值指明了frame_num允许的值和解码过程中的frame_num的差距值。
17. pic_width_in_mbs_minus1
pic_width_in_mbs_minus1加1指明了对于每个解码图像中的宽度值。在宏块单元中的图像宽度的变量值为:
PicWidthInMbs = pic_width_in_mbs_minus1+1;
对于亮度元素来说图像宽度变量的值:PicWidthInSamplesL = PicWidthInMbs * 16;
对于色度元素来说图像宽度变量的值:PicWidthInSamplesC = PicWidthInMbs * 8
18. pic_height_in_map_units_minus1
pic_height_in_map_units_minus1指明了解码帧或场中的一个切片组的高度。变量PicHeightInMapUnits的值和PicSizeInMapUnits:
PicHeightInMapUnits = pic_height_in_map_units_minus1 + 1;
PicSizeInMapUnits = PicWidthInMbs * PicHeightInMapUnits
19.frame_mbs_only_flag
frame_mbs_only_flag等于0指明了视频序列的编码图象可能是编码场或编码帧。frame_mbs_only_flag等于1指明了每个编码视频序列的编码图像都是只含帧宏块的编码帧。
依赖于frame_mbs_only_flag的值,pic_height_in_map_units_minus1如下定义:
如frame_mbs_only_flag等于0,pic_height_in_map_units_minus1就是宏块单元的场高
如frame_mbs_only_flag等于1,pic_height_in_map_units_minus1就是宏块单元的场宽
FrameHeightInMbs的值:
FrameheightInMbs = ( 2 - frame_mbs_only_flag ) * PicHeightInMapUnits
20. mb_adaptive_frame_field_flag
mb_adaptive_frame_field_flag等于0表明在一个图像内不能切换使用帧和场宏块。 mb_adaptive_frame_field_flag等于1表示在一帧中有可能使用场和帧的切换,当 mb_adaptive_frame_field_flag没有设定的时候,应该赋给0.
21. direct_8x8_inference_flag
direct_8x8_inference_flag指明了在亮度运动向量生成B_Skip,B_Direct_16x16和B_Direct_8x8 的方法。当frame_mbs_only_flag为0时,direct_8x8_inference_flag应为1
22. frame_cropping_flag
frame_cropping_flag等于1表明在sps中下一个使用的帧剪切偏移量参数。frame_cropping_flag等于0表明帧剪切偏移量不存在。
23. frame_crop_left_offset,frame_crop_right_offset,frame_crop_top_offset,frame_crop_bottom_offset指明了在一个窗中一帧的采样值。
24. vui_parameters_present_flag
vui_parameters_present_flag等于1表示vui_parameters()在码流中是存在的,vui_parameters_present_flag等于0表明vui_parameters()在码流中不存在。
H.264 picture parameter sets成员值含义学习笔记
H.264中定义的picture parameter sets中包括了一个图像的所有切片信息.它也是H.264的基础之一,
是编码前进行初始化的关键的一环,本文跟下一篇sps的参考笔记是兄弟篇,通过参考H.264的标准文档,
对每个函数进行了一些注释性的说明,还有一些图表性的东西,因为blog上帖不是很方便,请参考文档中
相应的部分.
picture parameter sets
1. pic_parameter_set_id
pic_parameter_set_id指明了在切片头中对应的某个psp.pic_parameter_set_id的值应该在0到255,包括0和255
2. seq_parameter_set_id
set_parameter_set_id表示激活的sps.seq_parameter_set_id应该取值在0到31之间,包括边界值.3. entropy_coding_mode_flag
entropy_coding_mode_flag决定了在解码方法上使用的方法.
如果entropy_coding_mode_flag为0的话,就使用Exp-Golomb编码方法
如果entropy_coding_mode_flag为1的话,就使用CABAC方法.4. pic_order_present_flag
pic_order_present_flag等于1表示在切片头中图像顺序值存在,pic_order_present_flag为0表示切片头中的图像顺序值不存在
5. num_slice_groups_minus1
num_slice_groups_minus1加上1表示一个图像中的切片组数目.当num_slice_groups_minus1为0时,图象所有的切片属于同一组.
6. slice_group_map_type
slice_group_map_type表示从切片组单到切片组的映射方法.slice_group_map_type的值可以取0到6.
slice_group_map_type=0表示插值切片组.
slice_group_map_type=1表示分散切片组映射
slice_group_map_type=2表示一个或多个"前景"切片组和一个"剩余"切片组.
slice_group_map_type=3,4,5时,表示变换切片组.当num_slice_groups_minus1不不1时,slice_group_map_type应该不为3,4,5.
slice_group_map_type=6时,表示从外部对对于每个切片组单元进行外部的切片赋值.
如果frame_mbs_only_flag为0而且mb_adaptive_frame_field_flag为1且编码图像是一帧的话,切片组映射单元是宏块对
如果frame_mbs_only_flag为1而且mb_adaptive_frame_field_flag为1且编码图像是一场的话,切片组映射单元是宏块
其他的情况下,切片组单元是两个宏块,它们在一帧宏块对中是垂直连续的7.run_length_minus1[i]被用来赋给在光栅扫描中第i个切片组指明连续切片组单元的数量.
run_length_minus1[i]的取值应为0到PicSizeInMapUnits-1.
top_left[ i ] and bottom_right[ i ] specify the top-left and bottom-right corners of a rectangle,
respectively. top_left[ i ] and bottom_right[ i ] are slice group map unit positions in a raster scan of the picture for the slice group map units. For each rectangle i, all of the following constraints shall be obeyed by the values of the syntax elements top_left[ i ] and bottom_right[ i ]
8.top_left[i] and bottom_right[i]
top_left[i] and bottom_right[i]指出了矩形区左上角和右下角.top_left[i] and bottom_right[i]是对于一个切片组的图像的光栅扫描位置.对于每个矩形i,top_left[i] and bottom_right[i]应该满足所有的
以下的约束:
a) top_left[i]应该比bottom_right[i]小或等于,bottom_right[i]应该比PicSizeInMapUnits的值小.
b) (top_left[i]%PicWidthInMbs)应该比(bottom_right[i]%PicWidthInMbs)的值小或等于.9. slice_group_change_direction_flag在slice_group_map_type为3,4,5时跟
slice_group_map_type一块儿来提取生成映射类型,
10.slice_group_change_rate_minus1
slice_group_change_rate_minus1用来指明SliceGroupChangeRate变量的值.SliceGroupChangeRate指出当切片组的大小对于每个图像来说都不同的时候,对切片组数目的运算
的乘数.slice_group_change_rate_minus1取值范围为0到PicSizeInMapUnits-1:
SliceGroupChangeRate = slice_group_change_rate_minus1+1;11. pic_size_in_map_units_minus1
pic_size_in_map_units_minus1用来指明在一个图象中使用的切片组映射单元的数目.pic_size_in_map_units_minus1应该等于PicSizeInMapUnits-1.
12. slice_group_id[i]
slice_group_id[i]说明了切片组单元中由光栅扫描顺序指定的第i个切片组.slice_group_id[i]应该取0到num_slice_groups_minus1.
13. num_ref_idx_l0_active_minus1指明了参考图像列表0中的最大参考索引值,它被用来解码图像
的每一个切片,列表0在num_ref_idx_active_override_flag值为0的时候被使用.当MbaffFrameFlag值
为1时,num_ref_idx_l0_active_minus1是解码帧宏块的最大索引值,而
2 * num_ref_idx_10_active_minus1 + 1是解码场宏块的最大索引值.
num_ref_idx_l0_active_minus1的取值为0到31.
14. num_ref_idx_l1_active_minus1与num_ref_idx_l0_active_minus1有相同的语义,只不过它是
针对列表1来说的.
15.weighted_pred_flag
weighted_pred_flag=0表示加权预测在P和SP切片中没有被使用
weighted_pred_flag=1表示加权预测在P和SP切片中有使用.16. weighted_bipred_idc
weighted_bipred_idc=0表示默认的加权预测被应用到B切片中.
weighted_bipred_idc=1表示外部的加权预测被应用到B切片中.
weighted_bipred_idc=2表示内部的加权预测被应用到B切片中.
weighted_bipred_idc的取值为0,1,2.17.pic_init_qp_minus26指出了对于每个切片来说的SliceQPY的初始值减26.初始值在切片层中
当非0的slice_qp_delta被解码后时改变,在非0的mb_qp_delta值被在宏块层解码时再次被改变.
pic_init_qp_minus26应该取-26到+25.
18. pic_init_qs_minus26
pic_init_qs_minus26指出了对于SP或SI切片中的SliceQSY的被始值减26.这个初始值在切片层中当一个非0的slice_qs_delta被解码的时候被修改.pic_init_qs_minus26的取值为-26到25.
19.chroma_qp_index_offset
chroma_qp_index_offset表示在查QPC表时,对于QPY和QSY应该加上的偏移量.chroma_qp_index_offset取值为-12到12
20. deblocking_filter_control_present_flag
deblocking_filter_control_present_flag=1表示在切片头处用来控制解块滤波的特征值是存在的.
deblocking_filter_control_present_flag=0表示在切片头处用来控制解块滤波的特征值是不存在的.21. constrained_intra_pred_flag
constrained_intra_pred_flag=0表示在帧内预测的时候允许剩余数据和邻近宏块解码采样.
constrained_intra_pred_flag=1表示在受限的帧内预测,对宏块预测中使用帧内宏块预测模式只使用剩余数据和从I和SI宏块类型中的解码采样值.
22. redundant_pic_cnt_present_flag
redundant_pic_cnt_present_flag=0表示redundant_pic_cnt在切片头中,数据分区B和数据分区C中不存在.
redundant_pic_cnt_present_flag=1表示redundant_pic_cnt在所有切片头中,数据分区B和数据分区C中存在.
H.264 Slice header syntax 成员值含义学习
如果存在,条带头语法元素pic_parameter_set_id、frame_num、field_pic_flag、bottom_field_flag、
idr_pic_id、pic_order_cnt_lsb、delta_pic_order_cnt_bottom、delta_pic_order_cnt[ 0 ]、delta_pic_order_cnt[ 1 ]、
sp_for_switch_flag和slice_group_change_cycle 的值在一个编码图像的所有条带头中都应一样。
first_mb_in_slice 表示在条带中第一个宏块的地址。当如附件A 中规定的那样不允许任意的条带顺序时,本
条带的first_mb_in_slice 的值应不小于当前图像的任何在该条带之前(按解码顺序)的其他条带的
first_mb_in_slice 的值。slice_type 表示条带的编码类型
slice_type 的值在5 到9 范围内表示,除了当前条带的编码类型,所有当前编码图像的其他条带的slice_type
值应与当前条带的slice_type值一样,或者等于当前条带的slice_type 值减5。
当nal_unit_type 等于5(IDR图像)时, slice_type 应等于2、4、7或9。
当num_ref_frames 等于0时, slice_type 应等于2、4、7或9。pic_parameter_set_id 指定使用的图像参数集。pic_parameter_set_id 的值应该在0 到255 范围内(包括0和255)。
frame_num 用作一个图像标识符,在比特流中应由log2_max_frame_num_minus4 + 4 个比特表示。
field_pic_flag 等于1 表示该条带是一个编码场的条带。field_pic_flag 等于0 表示该条带是一个编码帧的条带。当field_pic_flag 不存在时,应推定其值为0。
bottom_field_flag 等于1表示该条带是一个编码底场的一部分。bottom_field_flag 等于0表示该图像是一个编码的顶场。当该条带不存在此语法元素时,应推定其值为0。
idr_pic_id 标识一个IDR图像。一个IDR图像的所有条带中的idr_pic_id 值应保持不变。当按解码顺序的两
个连续访问单元都是IDR 访问单元时,第一个IDR 访问单元的条带的idr_pic_id 值应与第二个IDR 访问单元的idr_pic_id 值不同。idr_pic_id 的值应在0到65535的范围内(包括0和65535)。pic_order_cnt_lsb 表示一个编码帧的顶场或一个编码场的图像顺序数对MaxPicOrderCntLsb 取模。
pic_order_cnt_lsb 语法元素的大小是log2_max_pic_order_cnt_lsb_minus4 + 4 个比特。pic_order_cnt_lsb 的值应该在0到MaxPicOrderCntLsb – 1的范围内(包括边界值)。delta_pic_order_cnt_bottom 表示一个编码帧的底场和顶场的图像顺序数之间的差
delta_pic_order_cnt[ 0 ] 表示图像顺序数与8.2.1节规定的一个编码帧的顶场或一个编码场的预期图像顺序数之间的差异。
delta_pic_order_cnt[ 1 ] 表示图像顺序数与8.2.1节规定的一个编码帧的底场的预期图像顺序数之间的差异。
redundant_pic_cnt 对于属于基本编码图像的条带和条带数据隔离带应等于0。
direct_spatial_mv_pred_flag 表示为得到帧间预测的动作矢量和参考序号而使用的方法
num_ref_idx_active_override_flag 等于0 表示在提到的图像参数集中规定的语法元素num_ref_idx_l0_active_minus1 和num_ref_idx_l1_active_minus1 的值将生效。
num_ref_idx_l0_active_minus1 表示将用于解码该条带的参考图像列表0的最大参考序号。
num_ref_idx_l1_active_minus1 具有与num_ref_idx_l0_active_minus1 同样的语义,只是分别用11 和列表1代替10和列表1。
cabac_init_idc 表示用于决定关联变量的初始化过程中使用的初始化表格的序号。变量cabac_init_idc 的值应该在0到2的范围内(包括0和2)。
slice_qp_delta 表示用于条带中的所有宏块的QPY 的初始值,该值在宏块层将被mb_qp_delta 的值修改。
sp_for_switch_flag 表示用来解码SP条带中的P宏块的解码过程
slice_qs_delta 表示SP和SI条带中所有宏块的QSY 值。
disable_deblocking_filter_idc 表示去块效应滤波器的操作在经过条带的一些块边缘时是否会被废弃,并指定该滤波器针对哪个边缘被废弃。
slice_alpha_c0_offset_div2 表示访问α 和tC0 去块效应滤波器表格来滤波条带中的宏块所控制的操作使用的偏移。
slice_beta_offset_div2 表示访问β 去块效应滤波器表格来滤波带中的宏块所控制的操作使用的偏移。
slice_group_change_cycle 用来在slice_group_map_type 等于3、4或5时得到条带组0中的条带组映射单元的数目