音视频数据处理(18)--- H.264的NAL层数据处理

NAL层的处理

H264NALUNAL unit)为单位来支持编码数据在基于分组交换技术网络中传输。

NALU定义了可用于基于分组和基于比特流系统的基本格式,同时给出头信息,从而提供了视频编码和外部世界的接口。


H264编码过程中的三种不同的数据形式:

SODB
 数据比特串-->最原始的编码数据,即VCL数据;

RBSP
 原始字节序列载荷-->在SODB的后面填加了结尾比特(RBSP trailing bits 一个bit“1”)若干比特“0”,以便字节对齐;

EBSP
 扩展字节序列载荷-->RBSP基础上填加了仿校验字节(0X03)它的原因是: 在NALU加到Annexb上时,需要添加每组NALU之前的开始码StartCodePrefix,如果该NALU对应的slice为一帧的开始则用4位字节表示,ox00000001,否则用3位字节表示ox000001(是一帧的一部分)。另外,为了使NALU主体中不包括与开始码相冲突的,在编码时,每遇到两个字节连续为0,就插入一个字节的0x03。解码时将0x03去掉。也称为脱壳操作。

编码处理过程:

1
  VCL层输出的SODB封装成nal_unit NALU是一个通用封装格式,可以适用于有序字节流方式和IP包交换方式。

2
  针对不同的传送网络(电路交换|包交换),将nal_unit封装成针对不同网络的封装格式(比如把nalu封装成rtp包)。



---------------------------------------------------

处理过程一,VCL数据封装成NALU

---------------------------------------------------


VCL层输出的比特流SODBString Of Data Bits),到nal_unit之间,经过了以下三步处理:

1.SODB
字节对齐处理后封装成RBSPRaw Byte Sequence Payload)。

2.
为防止RBSP的字节流与有序字节流传送方式下的SCPstart_code_prefix_one_3bytes0x000001)出现字节竞争情形,循环检测RBSP前三个字节,在出现字节竞争时在第三字节前加入emulation_prevention_three_byte0x03),具体方法: 

H.264 官方文档  表 7.3.1NAL 层句法 : 
nal_unit( NumBytesInNALunit ) {  
    // forbidden_zero_bit  等于 0 
    forbidden_zero_bit   
    nal_ref_idc //   指示当前 NAL 的优先级。取值范围为 0-3,  值越高,表示当前 NAL 越重要,需要优先受到保护。H.264 规定如果当前 NAL 是属于参考帧的片,或是序列参数集,或是图像参数集这些重要的数据单位时,本句法元素必须大于 0。    
    nal_unit_type // NAL类型 指明当前 NAL unit 的类型 
    NumBytesInRBSP = 0  
    /* rbsp_byte[i]    RBSP 的第 i 个字节。RBSP 指原始字节载荷,它是 NAL 单元的数据部分的封装格式,封装的数据来自 SODB(原始数据比特流)。SODB 是编码后的原始数据,SODB 经封装为 RBSP 后放入 NAL 的数据部分。下面介绍一个 RBSP 的生成顺序。 
        从 SODB 到 RBSP 的生成过程: 
        -      如果 SODB 内容是空的,生成的 RBSP 也是空的 
        -      否则,RBSP 由如下的方式生成: 
       1) RBSP 的第一个字节直接取自 SODB 的第 1 到 8 个比特,(RBSP 字节内的比特按照从左到右对应为从高到低的顺序排列,most  significant),以此类推,RBSP 其余的每个字节都直接取自 SODB的相应比特。RBSP  的最后一个字节包含 SODB  的最后几个比特,及如下的 rbsp_trailing_bits() 
       2) rbsp_trailing_bits()的第一个比特是 1,接下来填充 0,直到字节对齐。(填充 0 的目的也是为了字节对齐) 
       3) 最后添加若干个 cabac_zero_word(其值等于 0x0000)            
    */
 
    for( i = 1; i < NumBytesInNALunit; i++ ) {           
        if( i + 2 < NumBytesInNALunit && next_bits( 24 )    = =    0x000003 ) {   
/* 0x000003伪起始码,需要删除0x03这个字节 */       
            rbsp_byte[ NumBytesInRBSP++ ]   
            rbsp_byte[ NumBytesInRBSP++ ]   
            i += 2    /* 取出前两个0x00后,跳过0x03 */          
            //emulation_prevention_three_byte      NAL 内部为防止与起始码竞争而引入的填充字节  ,值为 0x03。 
            emulation_prevention_three_byte    
        } else           
            rbsp_byte[ NumBytesInRBSP++ ] /* 继续读取后面的字节 */   
    }          
}

3. 
防字节竞争处理后的RBSP再加一个字节的header(forbidden_zero_bit+ nal_ref_idc+ nal_unit_type),封装成nal_unit. 

------------------------------------------------

处理过程二,NALU的RTP打包

------------------------------------------------

一、NALU打包成RTP的方式有三种:

1. 单一 NAL 单元模式
     即一个 RTP 包仅由一个完整的 NALU 组成. 这种情况下 RTP NAL 头类型字段和原始的 H.264的
NALU 头类型字段是一样的.

2. 组合封包模式
    即可能是由多个 NAL 单元组成一个 RTP 包. 分别有4种组合方式: STAP-A, STAP-B, MTAP16, MTAP24.
那么这里的类型值分别是 24, 25, 26 以及 27.

3. 分片封包模式
    用于把一个 NALU 单元封装成多个 RTP 包. 存在两种类型 FU-A 和 FU-B. 类型值分别是 28 和 29.

 

还记得前面nal_unit_type的定义吧,0~23是给H264用的,24~31未使用,在rtp打包时,如果一个NALU放在一个RTP包里,可以使用NALU的nal_unit_type,但是当需要把多个NALU打包成一个RTP包,或者需要把一个NALU打包成多个RTP包时,就定义新的type来标识。

      Type   Packet      Type name                       
      ---------------------------------------------------------
      0      undefined                                    -
      1-23   NAL unit    Single NAL unit packet per H.264  
      24     STAP-A     Single-time aggregation packet    
      25     STAP-B     Single-time aggregation packet    
      26     MTAP16    Multi-time aggregation packet     
      27     MTAP24    Multi-time aggregation packet     
      28     FU-A      Fragmentation unit                
      29     FU-B      Fragmentation unit                 
      30-31  undefined                   
                

 

二、三种打包方式的具体格式

1 .单一 NAL 单元模式

对于 NALU 的长度小于 MTU 大小的包, 一般采用单一 NAL 单元模式.
对于一个原始的 H.264 NALU 单元常由 [Start Code] [NALU Header] [NALU Payload] 三部分组成, 其中 Start Code 用于标示这是一个
NALU 单元的开始, 必须是 "00 00 00 01" 或 "00 00 01", NALU 头仅一个字节, 其后都是 NALU 单元内容.

打包时去除 "00 00 01" 或 "00 00 00 01" 的开始码, 把其他数据封包的 RTP 包即可.

       0                   1                   2                   3
       0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |F|NRI| type   |                                               |
      +-+-+-+-+-+-+-+-+                                               |
      |                                                               |
      |               Bytes 2..n of a Single NAL unit                 |
      |                                                               |
      |                               +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                               :...OPTIONAL RTP padding        |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+


如有一个 H.264 的 NALU 是这样的:

[00 00 00 01 67 42 A0 1E 23 56 0E 2F ... ]

这是一个序列参数集 NAL 单元. [00 00 00 01] 是四个字节的开始码, 67 是 NALU 头, 42 开始的数据是 NALU 内容.

封装成 RTP 包将如下:

[ RTP Header ] [ 67 42 A0 1E 23 56 0E 2F ]

即只要去掉 4 个字节的开始码就可以了.


2 组合封包模式

其次, 当 NALU 的长度特别小时, 可以把几个 NALU 单元封在一个 RTP 包中.


       0                   1                   2                   3
       0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                          RTP Header                           |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |STAP-A NAL HDR |         NALU 1 Size           | NALU 1 HDR    |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                         NALU 1 Data                           |
      :                                                               :
      +               +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |               | NALU 2 Size                   | NALU 2 HDR    |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                         NALU 2 Data                           |
      :                                                               :
      |                               +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                               :...OPTIONAL RTP padding        |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+


3 Fragmentation Units (FUs).

而当 NALU 的长度超过 MTU 时, 就必须对 NALU 单元进行分片封包. 也称为 Fragmentation Units (FUs).

       0                   1                   2                   3
       0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      | FU indicator |   FU header   |                               |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+                               |
      |                                                               |
      |                         FU payload                            |
      |                                                               |
      |                               +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
      |                               :...OPTIONAL RTP padding        |
      +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

      Figure 14. RTP payload format for FU-A

   FU indicator有以下格式:
      +---------------+
      |0|1|2|3|4|5|6|7|
      +-+-+-+-+-+-+-+-+
      |F|NRI|  Type   |
      +---------------+
   FU指示字节的类型域 Type=28表示FU-A。。NRI域的值必须根据分片NAL单元的NRI域的值设置。
 
   FU header的格式如下:
      +---------------+
      |0|1|2|3|4|5|6|7|
      +-+-+-+-+-+-+-+-+
      |S|E|R|  Type   |
      +---------------+
   S: 1 bit
   当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开始,开始位设为0。
   E: 1 bit
   当设置成1, 结束位指示分片NAL单元的结束,即, 荷载的最后字节也是分片NAL单元的最后一个字节。当跟随的FU荷载不是分片NAL单元的最后分片,结束位设置为0。
   R: 1 bit
   保留位必须设置为0,接收者必须忽略该位。
   Type: 5 bits

三、拆包和解包

拆包:当编码器在编码时需要将原有一个NAL按照FU-A进行分片,原有的NAL的单元头与分片后的FU-A的单元头有如下关系:
原始的NAL头的前三位为FU indicator的前三位,原始的NAL头的后五位为FU header的后五位,FU indicator与FU header的剩余位数根据实际情况决定。
 
解包:当接收端收到FU-A的分片数据,需要将所有的分片包组合还原成原始的NAl包时,FU-A的单元头与还原后的NAL的关系如下:
还原后的NAL头的八位是由FU indicator的前三位加FU header的后五位组成,即:
nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f)



代码实现

从RTP包里面得到H264视频数据的方法:


/ 功能:解码RTP H.264视频
 // 参数:1.RTP包缓冲地址 2.RTP包数据大小 3.H264输出地址 4.输出数据大小
 // 返回:true:表示一帧结束  false:FU-A分片未结束或帧未结束 
 #define  RTP_HEADLEN 12 
 bool  UnpackRTPH264( void   *  bufIn,  int  len,   void **  pBufOut,   int   *  pOutLen)
  {
     * pOutLen  =   0 ;
     if  (len  <  RTP_HEADLEN)
     {
         return   false ;
    } 

 
    unsigned  char *  src  =  (unsigned  char * )bufIn  +  RTP_HEADLEN;//取出RTP包头
    unsigned  char  head1  =   * src; // 获取第一个字节 
     unsigned  char  head2  =   * (src + 1 ); // 获取第二个字节 
     unsigned  char  nal  =  head1  &   0x1f ; // 获取FU indicator的类型域,RTP头的第一字节的低5位 
     unsigned  char  flag  =  head2  &   0xe0 ; // 获取FU header的前三位,判断当前是分包的开始、中间或结束 ,RTP头的第二字节的前3位 S E R
//获取原nal的nal_unit_type
     unsigned  char  nal_fua  =  (head1  &   0xe0 )  |  (head2  &   0x1f ); // 原始的NAL头的前三位为FU indicator的前三位,原始的NAL头的后五位为FU header的后五位
      bool  bFinishFrame  =   false ;

     if  (nal == 0x1c ) // 判断NAL的类型为0x1c=28,说明是FU-A分片 
       { // fu-a 
          if  (flag == 0x80 ) // flag的高位S=1表示这是一帧数据的开始 
           {
             * pBufOut  =  src - 3 ;
             * (( int * )( * pBufOut))  =   0x01000000  ; // zyf:大模式会有问题 ,存起始标志
              * (( char * )( * pBufOut) + 4 )  =  nal_fua;//存nal头
             *  pOutLen  =  len  -  RTP_HEADLEN  +   3 ;//去除RTP头,去除两个字节的FU_indicator和FU_header,加入4字节的起始序列,以及1字节的nal头,所以最终
增加了三个字节
        } 
         else   if (flag == 0x40 ) // 结束 
           {
             * pBufOut  =  src + 2 ;
             *  pOutLen  =  len  -  RTP_HEADLEN  -   2 ;
        } 

         else // 中间 
           {
             * pBufOut  =  src + 2 //去除两字节的FU
             *  pOutLen  =  len  -  RTP_HEADLEN  -   2 ;
        } 

    } 

     else // 单包数据 
       {
         * pBufOut  =  src - 4 ;
         * (( int * )( * pBufOut))  =   0x01000000 ; // zyf:大模式会有问题 
          *  pOutLen  =  len  -  RTP_HEADLEN  +   4 ;
    } 

 
    unsigned  char *  bufTmp  =  (unsigned  char * )bufIn;
     if  (bufTmp[ 1 ]  &   0x80 )
     {
        bFinishFrame  =   true ; // rtp mark 
     } 

     else 
      {
        bFinishFrame  =   false ;
    } 

     return  bFinishFrame;
  


从RTP包里面得到AAC音频数据的方法:


//功能:解RTP AAC音频包,声道和采样频率必须知道。
//参数:1.RTP包缓冲地址 2.RTP包数据大小 3.H264输出地址 4.输出数据大小
//返回:true:表示一帧结束  false:帧未结束 一般AAC音频包比较小,没有分片。
bool UnpackRTPAAC(void * bufIn, int recvLen, void** pBufOut,  int* pOutLen)
{
    unsigned char*  bufRecv = (unsigned char*)bufIn;
    //char strFileName[20];
    
    unsigned char ADTS[] = {0xFF, 0xF1, 0x00, 0x00, 0x00, 0x00, 0xFC}
    int audioSamprate = 32000;//音频采样率
    int audioChannel = 2;//音频声道 1或2
    int audioBit = 16;//16位 固定
    switch(audioSamprate)
    {
    case  16000:
        ADTS[2] = 0x60;
        break;
    case  32000:
        ADTS[2] = 0x54;
        break;
    case  44100:
        ADTS[2] = 0x50;
        break;
    case  48000:
        ADTS[2] = 0x4C;
        break;
    case  96000:
        ADTS[2] = 0x40;
        break;
    default:
        break;
    }

    ADTS[3] = (audioChannel==2)?0x80:0x40;

    int len = recvLen - 16 + 7;
    len <<= 5;//8bit * 2 - 11 = 5(headerSize 11bit)
    len |= 0x1F;//5 bit    1            
    ADTS[4] = len>>8;
    ADTS[5] = len & 0xFF;
    *pBufOut = (char*)bufIn+16-7;
    memcpy(*pBufOut, ADTS, sizeof(ADTS));
    *pOutLen = recvLen - 16 + 7;

    unsigned char* bufTmp = (unsigned char*)bufIn;
    bool bFinishFrame = false;
    if (bufTmp[1] & 0x80)
    {
        //DebugTrace::D("Marker");
        bFinishFrame = true;
    }

    else
    {
        bFinishFrame = false;
    }

    return true;
}


你可能感兴趣的:(音视频编解码)