RTP/RTCP协议如何实现媒体流的同步

RTP的同步其实就靠这几个东西来完成:
1. RTP帧头的以下三个域 sequence number, timestamp,SSRC
2. RTCP SR报文的以下三个域:RTP timestamp, NTP timestamp, SSRC of sender

同步机制其实十分简单:
先说RTP头
1. 某RTP流的第一个包中的sequence number是一个随机产生的16bit正整数。发送端按发送先后顺序进行加1。这个数字是为了保证接收端可以按照发送先后顺序重排RTP包。
2. 某RTP流的第一个包中的timestamp是一个随机产生的32bit正整数。后续包计算第一个Byte数据被采样的时刻的Offset,再加上这个随机值得到这个值。算Offset的单位是采样次数,每两帧之间timestamp的增量是 = 采样次数 / 帧率
其中采样次数(也可称为时钟频率)可从SDP中获取,如:
          m=video 2834 RTP/AVP 96
          a=rtpmap:96 H264/90000
其时钟频率为90000(通常视频的时钟频率),若视频帧率为25fps,则相邻帧间RTP timestamp增量值 = 90000/25 = 3600。
另外,通常音频的时钟频率一般为8000。
3. SSRC也是一个随机值,但是在整个RTP Session中必须是全局唯一的。它代表一个正在参与Session的流。


总之,sequence number, timestamp保证了一个RTP流自身的同步,SSRC和RTCP结合起来用在不同RTP流的同步上。

再说RTCP SR头
1. NTP timestamp 标示该SR发送时的绝对时间,这个时间来自RTCP发送者的系统时钟。
2. 该NTP timestamp对应的RTP timestamp,也就是跟RTP建立一个映射关系。
3. SSRC发送者的id,也是跟某发送源建立一个映射关系。
因此对于接受者来说,若它同时接收多个流,就可以根据NTP timestamp 来同步。
SR是发送者周期性的向所有接受者按照多播方式发送的包。


那怎么计算NTP时间呢?
在RTCP中NTP时间存放在8个字节中,分为:MSW和LSW,分别占用4个字节。
MSW: 单位是秒,不过是从1900年1月1日算起,所以使用gettimeofday后需要加上:1900-1970的时间差:
msw = (70LL * 365 + 17) * 24 * 60 * 60 + tv.tv_sec;
LSW:单位是232皮秒,其中1s = 10^12ps,所以以32bit表示的话,每个bit就是10^12/2^32=232.83皮秒。


VLC有一个这样的函数,我加了些注释:
/**
 * @return NTP 64-bits timestamp in host byte order.
 */
uint64_t NTPtime64 (void)
{
    struct timespec ts;
#if defined (CLOCK_REALTIME)
    clock_gettime (CLOCK_REALTIME, &ts);
#else
    {
        struct timeval tv;
        /*获取系统时间,tv_sec是秒,tv_nsec是纳秒,纳秒是微秒的1000倍*/
        gettimeofday (&tv, NULL);
        ts.tv_sec = tv.tv_sec;
        ts.tv_nsec = tv.tv_usec * 1000;
    }
#endif


    /* t=ts.tv_nsec*2^32/1000000000,也就是说,ts.tv_nsec*1000/(1,000,000,000,000/2^32)*/
    /* Convert nanoseconds to 32-bits fraction (232 picosecond units) */
    uint64_t t = (uint64_t)(ts.tv_nsec) << 32;
    t /= 1000000000;


    /* There is 70 years (incl. 17 leap ones) offset to the Unix Epoch.
     * No leap seconds during that period since they were not invented yet.
     */
    assert (t < 0x100000000);
    t |= ((70LL * 365 + 17) * 24 * 60 * 60 + ts.tv_sec) << 32;
    return t;
}


顺便提一句,RTCP RR包是接受者按多播方式发送的包,发送方接收到之后,将调整发送的策略。
RR包包括SSRC,该SSRC对应的RTP流的分组丢包率;分组到达抖动等。

你可能感兴趣的:(音频开发,流媒体)