音视频开发---音视频同步算法

 

目录

ffplay简介

为什么要做音视频同步

音视频同步算法

参考


      本文是对音视频同步算法的总结,以阅读ffplay.c源码为基础,结合各位博主的分析, 逐渐深入理解同步算法原理, 并根据自身理解, 编写一套简易的视频播放器,用于验证音视频同步算法。

ffplay简介

    ffplay是FFmpeg提供的开源播放器,基于FFmpeg和SDL进行视频播放, 是研究视频播放器,音视频同步算法的很好的示例。ffplay源码涉及到很多音视频的基本概念, 在基础理论缺乏的情况下分析起来并不容易,在分析ffplay源码之前,要对音视频的相关概念有所了解,关于音视频的基本知识,在网络上有很多,也可以参考我的其他文章,这些也是我在学习中的经验总结。

    在ffmpeg4.1.3中,ffplay源码约3700行,非常的小巧,网上关于ffplay原理分析的文章也有很多,诸如:

             雷神的博客

             ITRonnie的 ffplay系列博客

             ffplay源码分析

比较系统的介绍了ffplay,是学习ffplay很好的资料。

    这里不再详细的分析ffplay的源码, 仅按照自己的理解对音视频同步算法进行总结, 并基于ffplay,自己动手编写一个简易视频播放器, 对音视频同步算法进行验证。

 

为什么要做音视频同步

    如果仅仅是视频按帧率播放,音频按采样率播放,二者没有同步机制,即使一开始音视频是同步的,随着时间的流逝,音视频会渐渐失去同步,并且不同步的现象会随着时间会越来越严重。这是因为:

     一、播放时间难以精确控制

     二、异常、误差会随时间累积。

所以,必须要采用一定的同步策略,不断对音视频的时间差作校正,使图像显示与声音播放总体保持一致。

 

音视频同步算法

音视频同步算法的核心在于准确计算出音频与视频播放时间的偏差, 再根据这个偏差对双方进行调整,确保双方在你追我赶的过程中保持同步。

1. 音视频同步介绍

        视频同步到音频:即以音频为主时间轴作为同步源

        音频同步到视频:即以视频为主时间轴作为同步源

        音频和视频同步到系统时钟:即以系统时钟为主时间轴作为同步源

    ffplay默认采用第一种同步方式,本节主要阐述视频同步到音频方式。为什么大多播放器要采用视频同步到音频呢,因为音频的采样率是固定的,若音频稍有卡顿,都会很明显的听出来,反则视频则不如此,虽然表面上说的是25P(每秒25帧),不一定每一帧的间隔就必须精确到40ms(所以每帧间隔大约40ms,事实上,也很难做到精确的40ms),即便偶尔视频间隔延时大了点或小了点,人眼也是察觉不出来的,所以视频的帧率可以是动态的,并不是严格标准的!

    视频同步到音频,即以音频作为主时间轴, 尽量不去干扰音频的播放,音频采用独立的线程独自解码播放(音频播放的速度在参数设置完毕后是固定的,因此我们也很容易计算音频播放的时间),在整个过程中,根据视频与音频时间差,来决策如何改变视频的播放速度,来确保视频与音频时间差控制在一定范围内, 当偏移在-90ms(音频滞后于视频)到+20ms(音频超前视频)之间时,人感觉不到视听质量的变化,这个区域可以认为是同步区域;当偏移在-185到+90之外时,音频和视频会出现严重的不同步现象,此区域认为是不同步区域。这里我们认为偏移diff在‘±一个视频帧间隔’范围内即认为是同步的,如下图所示:

 

音视频开发---音视频同步算法_第1张图片

 

2. 音视频时间偏差计算

同步系统的关键就在于计算视频与音频时间偏差diff, 在ffplay.c源码中,是通过函数compute_target_delay实现的,函数源码如下:


static double compute_target_delay(double delay, VideoState *is)
{
    double sync_threshold, diff = 0;

    /* update delay to follow master synchronisation source */
    if (get_master_sync_type(is) != AV_SYNC_VIDEO_MASTER) {
        /* if video is slave, we try to correct big delays by
           duplicating or deleting a frame */
        diff = get_clock(&is->vidclk) - get_master_clock(is);

        /* skip or repeat frame. We take into account the
           delay to compute the threshold. I still don't know
           if it is the best guess */
        sync_threshold = FFMAX(AV_SYNC_THRESHOLD_MIN, FFMIN(AV_SYNC_THRESHOLD_MAX, delay));
        if (!isnan(diff) && fabs(diff) < is->max_frame_duration) {
            if (diff <= -sync_threshold)
                delay = FFMAX(0, delay + diff);
            else if (diff >= sync_threshold && delay > AV_SYNC_FRAMEDUP_THRESHOLD)
                delay = delay + diff;
            else if (diff >= sync_threshold)
                delay = 2 * delay;
        }
    }

    av_log(NULL, AV_LOG_TRACE, "video: delay=%0.3f A-V=%f\n",
            delay, -diff);

    return delay;
}

根据自身的理解,结合实际测试,得出diff的计算方法:

音视频开发---音视频同步算法_第2张图片

当前视频帧pts:frame->pts * av_q2d(video_st->time_base)

当前视频帧至今流逝的时间: 代表当前视频帧从开始显示到现在的时间, 在ffplay中函数get_clock(&is->vidclk)给出了具体实现,在本次实验中, 通过nowtime - last_showtime来表示流逝的时间, 由于我们是在视频显示后立即计算diff, 这个流逝的时间几乎可以忽略不计,可以使用0表示。

音频帧播放时间 = 音频长度/采样率

当前音频帧播放完毕时间= 当前音频帧的pts + 当前音频帧长度 / 采样率

                                           = af->pts + (double) af->frame->nb_samples / af->frame->sample_rate;

      (在计算音频帧长度时需要考虑采样率, 通道数, 样本格式)

 音频缓冲区中未播放数据的时间: 在ffplay.c中,采用如下公式来获取:   

set_clock_at(&is->audclk, is->audio_clock - (double)(2 * is->audio_hw_buf_size + is->audio_write_buf_size) / is->audio_tgt.bytes_per_sec, is->audio_clock_serial, audio_callback_time / 1000000.0);

         缓冲区数据总长度=SDL的A,B缓冲区总长度  +  当前音频帧尚未拷贝到SDL缓冲区的剩余长度aduio_write_buf_size

到这里,我们就可以计算得到音视频的播放时间偏差diff, 结合上面的偏差图,我们很容易判断出是视频落后于音频,还是音频落后于视频。

 

3. 量化视频播放的时间延时

通过第2步我们已经计算出音视频的时间偏差, 接下来我们就要根据这个偏差来量化视频延时的时间, 来控制下一个视频帧显示的时间。

我们参考ffplay.c中的代码片段:

            last_duration = vp_duration(is, lastvp, vp);
            delay = compute_target_delay(last_duration, is);

            time= av_gettime_relative()/1000000.0;
            if (time < is->frame_timer + delay) {
                *remaining_time = FFMIN(is->frame_timer + delay - time, *remaining_time);
                goto display;
            }

            is->frame_timer += delay;
            if (delay > 0 && time - is->frame_timer > AV_SYNC_THRESHOLD_MAX)
                is->frame_timer = time;

remaining_time为下一帧播放的延时时间, ffplay.c借助frame_timer += delay来记录当前视频累计播放的时间。

     frame_timer + delay - av_gettime_relative()/1000000.0 :代表下一视频帧需要延时的时间,这里需要减去当前时间,是为了得到定时器或delay的时间。 

     另外, 我们约定任意两个视频帧的间隔至少为10ms,所以才有了:

            *remaining_time = FFMIN(is->frame_timer + delay - time, *remaining_time);

 

4. 编写简易的视频播放器

    ffplay.c中的同步算法对于初学者而言理解起来还是有些难度的, 结合自身对ffplay.c源码的阅读,以及音视频同步算法的理解, 对上述同步代码进行精简, 亦能达到音视频同步的效果代码片段如下。

        if( pm->av_sync_type == AV_SYNC_AUDIO_MASTER){// 
            master_clock = get_master_clock(pm);
            diff = vp->pts - master_clock;
            printf("vps:%lf, audioclock:%lf, diff:%lf\n", vp->pts, master_clock, diff);
            sync_threshold = (delay > AV_SYNC_THRESHOLD)?delay:AV_SYNC_THRESHOLD;
  
            if( diff <= -sync_threshold){
                delay = 0;
            }else if( diff >= sync_threshold){
                delay *= 2;
            }
            
        }

我们直接根据diff的值来决策下一帧要延时的时间。

学习期间编写的一个视频播放器,用于研究音视频同步算法,完整代码下载

 

参考

https://www.cnblogs.com/my_life/articles/6842155.html

ffplay播放器音视频同步原理: https://blog.csdn.net/lrzkd/article/details/78661841

ffplay:  https://juejin.im/user/5cac7dc26fb9a06885399b1c/posts

ffplay.c 音视频同步

你可能感兴趣的:(音视频)