黑猫爱小鹿

音视频同步原理

音视频同步

更多精彩内容

音频系统概述

音频时延payload_delay_ms jitter_delay(neteq)。
在WebRTC中有neteq，所以，音频的卡顿以及卡顿时长都是放在neteq内部进行计算的。

时间戳

时间戳的概念主要有以下几个：

ntp时间戳: NTP时间戳是绝对时间戳
本地时间戳
RTP时间戳：RTP时间戳是相对时间戳

ntp时间戳

RTP的标准并没有规定音频、视频流的第一个包必须同时采集、发送，也就是说开始的一小段时间内可能只有音频或者视频，再加上可能的网络丢包，音频或者视频流的开始若干包可能丢失，那么不能简单认为接收端收到的第一个音频包和视频包是对齐的，需要一个共同的时间基准来做时间对齐，这就是NTP时间戳的作用。

NTP时间戳是从1900年1月1日00:00:00以来经过的秒数，发送端以一定的频率发送SR(Sender Report)这个RTCP包，分为视频SR和音频SR，SR包内包含一个RTP时间戳和对应的NTP时间戳，接收端收到后就可以确定某个流的RTP时间戳和NTP时间戳的对应关系，这样音频、视频的时间戳就可以统一到同一个时间基准下。

如上图，发送端的音视频流并没有对齐，但是周期地发送SR包，接收端得到音视频SR包的RTP时间戳、NTP时间戳后通过线性回归得到NTP时间戳Tntp和RTP时间戳Trtp时间戳的对应关系：

Tntp_audio = f(Trtp_audio)

Tntp_video = f(Trtp_video)

其中Tntp = f(Trtp) = kTrtp + b 为线性函数，这样接收端每收到一个RTP包，都可以将RTP时间戳换算成NTP时间戳，从而在同一时间基准下进行音视频同步。

本地时间戳

从系统启动启动开始计时。

RTP时间戳

RTP时间戳定义了负载数据的采样时刻，描述的是负载数据的帧间顺序

“The timestamp reflects the sampling instant of the first octet in the RTP data packet. The sampling instant must be derived from a clock that increments monotonically and linearly in time to allow synchronization and jitter calculations. The resolution of the clock must be sufficient for the desired synchronization accuracy and for measuring packet arrival jitter (one tick per video frame is typically not sufficient). ”

也就是说，RTP时间戳是从单调线性递增的时钟里面获得的，时钟的精度由采样频率决定，视频的采样一般为90kZ，时间戳增加1，实际时间增加1/90000s

等价于，本地时间增加1，采样的时间增加90000s。

在WebRTC内部，ntp时间的计算过程如下：

// Capture time may come from clock with an offset and drift from clock_.
int64_t capture_ntp_time_ms;
if (video_frame.ntp_time_ms() > 0) { //值为0，不会进入
  capture_ntp_time_ms = video_frame.ntp_time_ms();
} else if (video_frame.render_time_ms() != 0) {//render_time_ms由timestamp_us_换算过来，本地时间。在采集的时候已经赋值
  capture_ntp_time_ms = video_frame.render_time_ms() + delta_ntp_internal_ms_;
} else {
  capture_ntp_time_ms = current_time_ms + delta_ntp_internal_ms_;
}
incoming_frame.set_ntp_time_ms(capture_ntp_time_ms);
delta_ntp_internal_ms_(clock_->CurrentNtpInMilliseconds() - clock_->TimeInMilliseconds())
// Convert NTP time, in ms, to RTP timestamp.
const int kMsToRtpTimestamp = 90;
incoming_frame.set_timestamp(
    kMsToRtpTimestamp * static_cast(incoming_frame.ntp_time_ms()));

重上述可以知道，ntp时间是从本地时间戳线性变化过来的，rtp时间戳是ntp时间戳线性变换过来的，所以ntp时间戳和rtp时间戳也存在线性变化的关系。ntp和本地时间戳本质上是一致的，只不过是在不同刻度下的表现。NTP时间和RTP时间戳是同一时刻的不同表示，区别在于精度不同。NTP时间是绝对时间，以毫秒为精度，而RTP时间戳则和媒体的采样频率有关。

音视频目标

不需要做到音视频绝对的同步，但是需要在一定的阈值内才能不被人所感知。

+ 代表声音比视频超前

(-100ms, +25ms) 无法感知

(-125ms, +45ms) 可以感知

(-, -185)U(+90, +) 影响体验

音频延迟于视频的阈值，相比于音频提前于视频的阈值更高。这个主要原因是人眼总是先看到光然后再听到声音，我们逐渐形成了这样的一个习惯。我们在理解信息的时候，也总是先视觉再听觉。如果声音先于视频较多，那么我们可能就无法将声音和画面对应上来，很容易感觉到音视频不同步。

不同步建模

音视频不同步的根本原因在于，音视频的传输通过的是不同的数据流，不同数据流之间是独立传输与处理的，拥有独立的时间戳。在不做任何处理的情况下，各自处理的延迟差异也会导致不完全同步。

如图所示，如果要处理音视频同步(同步的本质是，接收到数据后，根据数据能够计算出数据的需要的pts)。就需要处理好以下几个：

获取接收端音视频数据绝对的ntp时间差。
获取发送端音视频采集绝对的NTP时间差。
音视频渲染缓冲时间delay。

在webRTC中衡量音视频的不同步的统计量做syncdiff(含义：在不做同步的情况下，音视频不同步的情况)播放时间差 - 采集时间差。

不同步 = 采集到接收组帧后的不同步 + JItterBuffer delay + 音视频渲染时长(渲染时长是计算再jitterbuffer的jitter中的，所以可以和JitterBuffer delay合并)

// Calculate the difference between the lowest possible video delay and the
  // current audio delay.
  // 视频的jitter buffer当前延迟 -音频的jitter buffer当前延迟 + 相对延迟
  int current_diff_ms =current_video_delay_ms - current_audio_delay_ms + relative_delay_ms;

RelativeDelay相对时延，表示如下图所示：

相对时延 = 接收时间差 - 采集时间差。

在webRTC中的rtp包中只能拿到rtp时间戳，但是接收端只能获取到接收端的本地时间戳，单位是ms，rtp的单位是采样步长，所以并不能直接使用，所以需要将rtp时间戳，转换成发送端为ms的单位，这时候就有了SR包，在接收端将数据包rtp时间戳映射为绝对的NTP时间戳。恰好RTCP SR的一个包里面有携带rtp timestamp和对应的NTP时间，SR包按照周期发送，接收端完全可以根据这些SR拟合出RTP timestamp和NTP timestamp的关系。这个转换由RtpToNtpEstimator完成。(这里其实并不关系发送时延)。

$$ $相对延迟 = (视频帧接收时间 - 音频帧接收时间) - （视频帧采集时间 - 音频帧采集时间）$ $$

可以看出，在webRTC中，都是将时间戳换算为发送端的NTP时间戳，再计算relativeDelay。

ntp转ntp