一次用ffmpeg实现图片+音频合成视频的开发

一、需求

用户针对一个PPT的每一页图片,进行语音录制,输出多段音频文件,将用户每段音频和对应的PPT图片拼接起来,最后输出成一整段MP4视频,作为教学视频播放

二、方案选择

针对需求,最开始提出了几个主要的方案

方案 优点 缺点
方案一:直播推流录制 使用现成直播方案,上手成本小 业务逻辑要和直播业务切割隔离,重新弄一套,不合适,而且感觉杀鸡用牛刀
方案二:客户端处理图片、音频合成,视频拼接等多媒体操作 1、后端业务简单;
2、大多数视频处理类APP都是如此,方案成熟
1、前端要新嵌入七牛多媒体处理SDK,对包稳定性有影响
2、APP处理视频,可能比较耗费手机性能,如果APP受众用户是中老年用户,可能手机性能扛不住
方案三:服务端统一处理图片、音频合成,视频拼接等多媒体操作 1、客户端无需再嵌入SDK
2、对用户手机性能的要求降到最低
服务端交互逻辑变复杂,并且要处理耗时的多媒体合成任务

最终定了方案三,原因是该功能的受众是老年用户,手机性能可能很差,耗时的操作交给服务端来比较合适

三、方案执行

3.1 初版方案

查询了一下,对应图片+音频合成视频,这样的音画合成的操作,七牛并没有提供API~
所以只能服务端采用万能的多媒体处理工具:ffmpeg 了,整体方案如下


ppt录制ffmpeg处理方案流程.png

可以看到上述方案,有两个关键操作:

关键操作 描述 如何触发
音画合成 图片+音频合成视频 客户端接口触发,用户每录一段语音,则服务端立马调异步任务进行音画合成
视频mp4拼接 不同的视频片段拼接成一整段视频 客户端接口触发,用户点击预览或提交审核,服务端检查所有语音片段是否音画合成完毕,条件符合则进行视频mp4拼接

注意,七牛提供了视频mp4拼接的接口,但是经过实践,用ffmpeg进行本地视频mp4拼接没有任何问题,并且速度很快,所以这里所有操作都用 本地 ffmpeg 来进行

ffmpeg 不具体介绍,详情可自行google:

官网:https://ffmpeg.org/

参数详解:https://zhuanlan.zhihu.com/p/31674583

具体ffmpeg的命令执行操作,第一版的执行如下:

关键操作 描述 ffmpeg操作和参考
音画合成 图片+音频合成视频 ffmpeg -i 1976.aac -i mulan.jpg -acodec aac -strict -2 -vcodec libx264 -ar 22050 -ab 128k -ac 2 -pix_fmt yuvj420p -y conf_liutao_test1.mp4
参考来源:https://blog.51cto.com/cjxkaka/1569109
视频mp4拼接 不同的视频片段拼接成一整段视频 如下
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

不同的视频片段拼接成一整段视频
参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

3.2 遇到的问题和优化

问题1. 音画合成的视频,在有些浏览器中无法拖动进度条

咨询了人森导师手哥,他给我介绍了一个工具:mediainfo,该工具可以查看视频详情,如音轨(Audio)和画面(Video)的时长,通过该工具可以看到通过第一版操作音画合成的视频,画面时长只有40ms,然而音轨时长却有7s,这里存在严重的不同步,因此在有些浏览器(safari)中并不能正常拖动进度条播放:


quiz_audioD_videoD.png

问题1的解决办法

参考:Combine one image + one audio file to make one video using FFmpeg

中"community wiki"的回答,使用如下ffmpeg命令可以正常生成Video_Duration和Audio_Duration接近的视频

ffmpeg -loop 1 -i xuanwu.jpg 
-i 1.aac 
-c:v libx264 -tune stillimage 
-c:a aac -b:a 192k -pix_fmt yuvj420p 
-shortest liutao_test_2.mp4

问题2:将不同的音画合成后的视频片段拼接起来后生成的 最终课程录制视频,会有音画不同步的问题

现象是明明是第一个PPT的录音,画面已经翻到PPT第二页了,录音还在播放第一页PPT尾段的录制语音

原因:通过 mediainfo 查看最后生成的 最终拼接视频,发现还是存在 Video_Duration和Audio_Duration 不一致的问题

应该是第一步音画合成的视频片段本身就有 Video_Duration和Audio_Duration 不完全一致,将他们拼接起来后,是音轨和画面轨道分别拼接,最后两条轴出现了不一致的问题。

因此,我们需要在第一步音画合成的时候做处理,让 Video_Duration和Audio_Duration 保持严格一致或尽量接近

问题2的解决办法

在音画合成后,多一步操作,对合成的视频片段,进行人为剪裁~让视频的 Video_Duration和Audio_Duration 保持一致:

ffmpeg -i input.mp4 
-ss 00:00:00 
-t 00:00:11.72 
-acodec aac -vcodec h264 
-strict -2 cut_output.mp4

如此生成的视频 Video_Duration和Audio_Duration 不会有太大差距。

问题3:安卓端的播放器,播放合成的课程视频,依然无法拖动视频的进度条

和安卓端同学沟通后,定位问题是视频缺少关键帧,需要为视频加入关键帧

问题3的解决办法

参考:https://codeday.me/bug/20180927/259812.html

在音画合成截断,就针对视频插入关键帧,关键命令:

ffmpeg -x264-params keyint=1:scenecut=0

上面的keyint=1表示每隔1帧插入设置一个关键帧

问题4:音画合成的速度特别慢,音画合成生成的文件也特别的大

首先观察现象,发现 图片大小为 212k,音频 .aac 文件大小为 132k,生成的视频文件居然会是540k

怀疑是帧率问题,google了一下,ffmpeg指令如果不人为设定帧率,默认帧率为25,而我们音画合成的视频就是一张图片,并不需要太高的帧率,这个地方应该可以优化下

问题4的解决办法

参考:https://zhuanlan.zhihu.com/p/31674583

经过人为设置帧率为1,生成文件大小优化为356k

人为设置帧率为1的关键指令如下:

ffmpeg -r 1

同时,写了个小脚本,做了下实验验证,人为设置帧率,也大大降低了处理速度:

实验:对比使用 -r 2 设置帧率(fps) 来对静态图的mp4处理速度和大小进行优化
第一组:帧率使用默认值为25的处理:
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k.mp4
    [spend] => 46401.793956757ms
)
第二组:帧率认为设定为2的处理(使用 命令参数 -r 2 认为指定帧率为2):
Array
(
    [command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -r 2 -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k_r2.mp4
    [spend] => 21741.201877594ms
)
生成文件大小的对比
[med@qa liutao]$ du -ak liutao_test_1min_64k.mp4 liutao_test_1min_64k_r2.mp4
1404    liutao_test_1min_64k.mp4
548 liutao_test_1min_64k_r2.mp4

从上面的实验看起来,针对1分钟的音频,人为设置帧率为2使得处理耗时降低了至少50%,生成文件大小降低了近60%

问题5:音画合成后的视频,截断后又丢失了关键帧

音画合成后的视频,是带有关键帧信息的,为何截断后又丢失了关键帧?

经过仔细对比,发现音画合成和截断的命令,有着细微差距

1,音画合成:
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec h264 
-strict -2 output1_cut.mp4

仔细观察上面两个命令,经过google,发现 【-c:a】和【-acodec】是一个意思,表示音频编码方式,【-c:v】和【-vcodec】是一个意思,表示视频编码方式

这里两个指令的 视频编码方式,一个指定的使用 libx264,一个使用h264, 怀疑是这里的不一致导致关键帧丢失

经过试验,发现猜测正确。

问题5的解决办法:

将音画合成和视频截断的音频解码方式统一为 libx264,就能保证截断后视频的关键帧不丢失:

1,音画合成:
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k -pix_fmt yuvj420p  
-shortest 
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4 
-ss 00:00:00 
-t 00:00:06.80 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 output1_cut.mp4

3.3 最终的视频处理命令

三个步骤:

  1. 音画合成,图片+音频合成视频
ffmpeg -loop 1 
-i mulan.jpg 
-i 2191.aac 
-r 1 
-c:v libx264 -x264-params keyint=1:scenecut=0 
-c:a aac 
-b:a 32k 
-pix_fmt yuvj420p  
-shortest liutao_test_2191_mulan_r1_key1.mp4

该指令人为设置合成帧率为1,降低处理耗时和生成文件大小,
人为设置关键帧间隔为每间隔1帧设置一个,解决安卓RN播放无法拉动进度条的问题

  1. 对音画合成后的视频片段进行截断
ffmpeg 
-ss 00:00:00 
-t 00:00:20.096 
-accurate_seek 
-i liutao_test_pre_2191.mp4 
-acodec aac 
-vcodec libx264 -x264-params keyint=1:scenecut=0 
-strict -2 
liutao_test_final_2191.mp4

参考:我是CSDN博客链接
截断是为了保证音轨长度和画面轨道长度
尽量保持一致,杜绝拼接后的音画不同步问题

  1. 视频mp4拼接,不同的视频片段拼接成一整段视频
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'

$ ffmpeg -f concat 
-i mylist.txt 
-c copy output

参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答

你可能感兴趣的:(一次用ffmpeg实现图片+音频合成视频的开发)