经过前面八章的学习与代码实现,我们的播放器已经能够正常播放视频了,接下来我们将加入最常用的 seek 能力,让你能够快进/快退。
本文参考文章来自 An ffmpeg and SDL Tutorial -Tutorial 07: Seeking。这个系列对新手较为友好,但 2015 后就不再更新了,以至于文章中的 ffmpeg api 已经被弃用了。幸运的是,有人对该教程的代码进行重写,使用了较新的 api,你可以在 rambodrahmani/ffmpeg-video-player 找到这些代码。
本文的代码在 ffmpeg_video_player_tutorial-my_tutorial07.cpp 和 ffmpeg_video_player_tutorial-my_tutorial07_01_accurate_seek.cpp。
我们想做的事情很简单:当用户按下左右键时,播放进度快进 5s 或者回退 5s。例如当前播放进度为 1s,当按下右键时,期望播放进度能够跳跃到 6s。
FFmpeg 提供了 seek 的接口,但它没法精确的跳跃到我们期望的位置,它有一些限制。关于精准 seek 我们稍后会进行讨论,目前让我们将目光关注到 FFmpeg 提供的 seek api 上。
FFmpeg 提供了 avformat_seek_file
进行 seek,函数原型:
int avformat_seek_file(AVFormatContext *s, int stream_index, int64_t min_ts, int64_t ts, int64_t max_ts, int flags);
函数的参数和返回值说明如下:
首先明确一点,seek 到目标时间 ts 上,这个 ts 的时间单位是什么?在 avformat_seek_file
注释中对 ts 的时间单位做了说明,总结下来:
在我们的代码实现中并不会使用到 AVSEEK_FLAG_BYTE 或者 AVSEEK_FLAG_FRAME,因此忽略上面的 1、2 点。将 stream_index
设置为 -1 是一种常见的选择,使得 ts 时间单位为 AV_TIME_BASE(也就是 1us)。
注意到 avformat_seek_file
作用的对象是 AVFormatContext
,这也就说它影响的是解封装的结果:经过 seek 之后,av_read_frame
将读取到新位置的 AVPacket。
虽然在 “flags” 中包含 AVSEEK_FLAG_BYTE 或者 AVSEEK_FLAG_FRAME 使得可以 seek 到任意位置(帧)上,但在实际使用上这两个 flag 很少被使用。我们最常用的还是 flags = 0 或者 flags = AVSEEK_FLAG_BACKWARD,这种情况下 avformat_seek_file 将会跳转至符合要求的关键帧(I帧)位置上。
在跳转时,如果指定了 AVSEEK_FLAG_BACKWARD 标志,则会优先跳转到前一个关键帧,否则会优先跳转到后一个关键帧。如果没有关键帧,则会跳转到最接近的非关键帧。但是,跳转到非关键帧可能会导致解码器出现错误或画面不完整的情况,因此在实际应用中,一般会尽量跳转到关键帧。
由于avformat_seek_file的特性,它会跳转到最接近指定时间戳的关键帧,因此在实际应用中,你可能会发现跳转的位置并不完全符合预期。例如,如果当前播放位置在1秒,你希望快进到6秒,但是在执行avformat_seek_file后,播放位置可能会跳转到8秒。这是因为在8秒处有一个关键帧,而在预期的6秒处没有关键帧。所以,avformat_seek_file会选择最近的关键帧进行跳转。「精准 seek」中将说明如何处理这种情况,此处不表。
两个关键帧的距离,有一个专业的名词来描述,即 GOP。GOP,全称为Group of Pictures,中文译为“图像组”,是视频编码中的一个重要概念。
在视频编码中,为了提高压缩效率,通常会采用帧间预测的方式,即利用前后帧之间的相关性,只编码和前后帧的差异部分。这样可以大大减少需要编码的数据量,从而提高压缩效率。而GOP就是帧间预测的基本单位。
一个GOP由一个I帧开始,后面跟随若干个P帧和B帧。I帧是关键帧,可以独立解码,而P帧和B帧则需要依赖其他帧进行解码。GOP的长度,即一个GOP中包含的帧数,是可以调整的,它直接影响到视频的压缩效率和错误恢复能力。GOP长度越短,错误恢复能力越强,但压缩效率较低;反之,GOP长度越长,压缩效率越高,但错误恢复能力较弱。
此外 GOP 还与视频画面质量有关,详细说明请参考:
讲解往 ffmpeg 中关于 seek 的 api 后,现在来说明如何在代码中实现 seek 的逻辑。大体步骤为:
avformat_seek_file
进行 seek 操作;Demux 完成 seek 后,还需要通知视频/音频解码线程发生了 seek 操作接下来对上述步骤做详细的说明
void onEvent(const SDL_Event &event) {
switch (event.type) {
case SDL_KEYDOWN: {
switch (event.key.keysym.sym) {
case SDLK_LEFT: {
play_ctx->doSeekRelative(-5.0);break;
}
case SDLK_RIGHT: {
play_ctx->doSeekRelative(5.0);break;
}
case SDLK_DOWN: {
play_ctx->doSeekRelative(-60.0);break;
}
case SDLK_UP: {
play_ctx->doSeekRelative(60.0);break;
}
}
break;
}
// ....
SDL 支持键盘事件,当我们按了某些按键时,通过 SDL_Event
中的信息来判断所按的键是哪个。在上述代码中,支持左右上下键来快进和快退。
void doSeekRelative(double incr) {
if (!seek_req) {
std::lock_guard lg(seek_mut);
auto pos = getAudioClock();
pos += incr;
if (pos < 0) {
pos = 0;
}
seek_rel = (int64_t)(incr * AV_TIME_BASE);
seek_pos = (int64_t)(pos * AV_TIME_BASE);
seek_flags = (incr < 0) ? AVSEEK_FLAG_BACKWARD : 0;
seek_req = true;
}
}
doSeekRelative
函数中:
getAudioClock
获取当前的音频时钟,即播放到第几秒了。pos += incr;
计算快进快退的目标位置seek_rel
和 seek_pos
,这里将时间单位转换到 AV_TIME_BASE 是为了后面处理更方面;seek_flags
如果是快退的话设置为 AVSEEK_FLAG_BACKWARD
seek_req = true
等待 demux 线程消费if (ctx.seek_req) {
// seek stuff goes here
int64_t seek_pos = 0;
int64_t seek_rel = 0;
int seek_flags = 0;
{
std::lock_guard lg(ctx.seek_mut);
seek_pos = ctx.seek_pos;
seek_rel = ctx.seek_rel;
seek_flags = ctx.seek_flags;
}
auto min_ts = (seek_rel > 0) ? (seek_pos - seek_rel + 2) : (INT64_MIN);
auto max_ts = (seek_rel < 0) ? (seek_pos - seek_rel - 2) : (INT64_MAX);
ret = avformat_seek_file(ctx.decode_ctx->demuxer.getFormatContext(), -1,
min_ts, seek_pos, max_ts, seek_flags);
if (ret < 0) {
fprintf(stderr, "%s: error while seeking %s\n",
decode_ctx.demuxer.getFormatContext()->url, av_err2str(ret));
} else {
if (ctx.decode_ctx->video_stream_index >= 0) {
decode_ctx.video_packet_sync_que.clear();
decode_ctx.video_packet_sync_que.tryPush(&flush_packet);
}
if (ctx.decode_ctx->audio_stream_index >= 0) {
decode_ctx.audio_packet_sync_que.clear();
decode_ctx.audio_packet_sync_que.tryPush(&flush_packet);
}
}
ctx.setClock(ctx.audio_clock_t, seek_pos / (double)AV_TIME_BASE);
ctx.seek_req = false;
}
上述代码在 demux 线程中,它展示了处理 seek 命令的逻辑操作。
seek_pos
、seek_rel
和 seek_flags
保存起来(为了线程安全)avformat_seek_file
接口,至于 min_ts
和 max_ts
为啥这样算?是直接抄的 ffplay 中代码(哈哈哈哈)。注意 avformat_seek_file
第二个参数是 -1,这也意味着所有输入的时间戳单位是 AV_TIME_BASE 为单位的。// seek stuff here
if (std::strcmp((char *)pkt->data, FLUSH_DATA) == 0) {
avcodec_flush_buffers(codec.getCodecContext());
out_frame_queue.clear();
return 0;
}
在解码线程中,要做的事情非常简单:
avcodec_flush_buffers
清理解码器上下文缓存,且清空 out_frame_queue 里的数据回到之前的那个问题:avformat_seek_file
只能跳转到关键帧,在实际应用中,你可能会发现跳转的位置并不完全符合预期。例如,如果当前播放位置在1秒,你希望快进到6秒,但是在执行avformat_seek_file后,播放位置可能会跳转到8秒。这是因为在8秒处有一个关键帧,而在预期的6秒处没有关键帧。
如何解决这个问题?要做两件事情:
avformat_seek_file
时,确保跳转到目标位置(target position)的前面的关键帧。例如 target_pos = 2s
时,跳转到关键帧应该满足 pos <= 2s
。调用 avformat_seek_file
时,将 flag 设置为 AVSEEK_FLAG_BACKWARD 即可,如果没有设置这个标志,那么找到的关键帧可能会超过目标时间戳。接下来让我们看具体实现的代码 ffmpeg_video_player_tutorial-my_tutorial07_01_accurate_seek.cpp
使用 SDL 处理键盘事件的代码与之前是一样的,此处不再赘述。直接看 demux 线程与解码线程的修改。
Demux Thread:
if (ctx.seek_req) {
// seek stuff goes here
int64_t seek_pos = 0;
int64_t seek_rel = 0;
int seek_flags = 0;
{
std::lock_guard lg(ctx.seek_mut);
seek_pos = ctx.seek_pos;
seek_rel = ctx.seek_rel;
seek_flags = ctx.seek_flags;
seek_flags = AVSEEK_FLAG_BACKWARD;
}
auto min_ts = (seek_rel > 0) ? (seek_pos - seek_rel + 2) : (INT64_MIN);
auto max_ts = (seek_rel < 0) ? (seek_pos - seek_rel - 2) : (seek_pos);
ret = avformat_seek_file(ctx.decode_ctx->demuxer.getFormatContext(), -1,
min_ts, seek_pos, max_ts, seek_flags);
if (ret < 0) {
fprintf(stderr, "%s: error while seeking %s\n",
decode_ctx.demuxer.getFormatContext()->url, av_err2str(ret));
} else {
seek_packet.pos = seek_pos;
// ...
}
Demux 线程代码与之前有两个差异点:
seek_flags
被设置为 AVSEEK_FLAG_BACKWARD
Decode Thread:
// seek stuff here
if (pkt->stream_index == FF_SEEK_PACKET_INDEX) {
avcodec_flush_buffers(codec.getCodecContext());
out_frame_queue.clear();
seeking_flag = true;
target_seek_pos_avtimebase = pkt->pos;
return 0;
}
解码线程收到 seek packet 后,首先做了两件事情:
avcodec_flush_buffers
清理解码器上下文缓存;清理 out_frame_queue 中的缓存帧while (ret >= 0) {
ret = codec.receiveFrame(out_frame);
ON_SCOPE_EXIT([&out_frame] { av_frame_unref(out_frame); });
// need more packet
if (ret == AVERROR(EAGAIN)) {
break;
} else if (ret == AVERROR_EOF || ret == AVERROR(EINVAL)) {
// EOF exit loop
break;
} else if (ret < 0) {
printf("Error while decoding.\n");
return -1;
}
if (seeking_flag) {
auto cur_frame_pts_avtimebase =
av_rescale_q(out_frame->pts, stream_time_base, AV_TIME_BASE_Q);
if (cur_frame_pts_avtimebase < target_seek_pos_avtimebase) {
break;
} else {
seeking_flag = false;
}
}
out_frame_queue.waitAndPush(out_frame);
}
在原有的解码逻辑中,我们加入了对 seek 的判断:
seeking_flag
,判断当前解码帧的 pts 是否小于目标位置。如果是,以为还没有解码到目标帧,继续解码;如果否,那么当前帧已经满足目标位置。seeking_flag
设置为 false
,将解码的视频帧放入 queue 中,让 sdl 去播放。实现精准 seek 后,可以发现在某些情况下需要解码很多很多帧,才能到达 seek 的目标位置。举个例子,假设 GOP=100,目标位置在 GOP 的最后一帧,调用 avformat_seek_file
后,seek 到了当前 GOP 的第一帧,于是需要解码 100 帧。有啥优化的办法吗?这里大致描述下,具体代码留给各位自行实现了。
AVPacket 的 flags 标志位中可以知道当前的 packet 是否可以被解码器丢弃。以下是对上述标志位的解释:
或者使用 AVDiscard 来丢弃某些帧,具体参考 百倍变速–解码到底能不能丢 非参考帧 ?FFmpeg 有话说!!!
如果 seek 的目标位置与当前位置属于同一个 GOP,且为向后 seek,那么可以优化现有 seek 逻辑,无需做其他操作只需等待解码器解码到目标位置即可。
本文介绍了播放器中如何实现快进、快退功能,并给出了具体的实现代码,还讨论了如何实现精准 seek 逻辑,并在最后给出了一些优化的思路。本文的代码在 ffmpeg_video_player_tutorial-my_tutorial07.cpp 和 ffmpeg_video_player_tutorial-my_tutorial07_01_accurate_seek.cpp。