一、需求
用户针对一个PPT的每一页图片,进行语音录制,输出多段音频文件,将用户每段音频和对应的PPT图片拼接起来,最后输出成一整段MP4视频,作为教学视频播放
二、方案选择
针对需求,最开始提出了几个主要的方案
方案 | 优点 | 缺点 |
---|---|---|
方案一:直播推流录制 | 使用现成直播方案,上手成本小 | 业务逻辑要和直播业务切割隔离,重新弄一套,不合适,而且感觉杀鸡用牛刀 |
方案二:客户端处理图片、音频合成,视频拼接等多媒体操作 | 1、后端业务简单; 2、大多数视频处理类APP都是如此,方案成熟 |
1、前端要新嵌入七牛多媒体处理SDK,对包稳定性有影响 2、APP处理视频,可能比较耗费手机性能,如果APP受众用户是中老年用户,可能手机性能扛不住 |
方案三:服务端统一处理图片、音频合成,视频拼接等多媒体操作 | 1、客户端无需再嵌入SDK 2、对用户手机性能的要求降到最低 |
服务端交互逻辑变复杂,并且要处理耗时的多媒体合成任务 |
最终定了方案三,原因是该功能的受众是老年用户,手机性能可能很差,耗时的操作交给服务端来比较合适
三、方案执行
3.1 初版方案
查询了一下,对应图片+音频合成视频,这样的音画合成的操作,七牛并没有提供API~
所以只能服务端采用万能的多媒体处理工具:ffmpeg 了,整体方案如下
可以看到上述方案,有两个关键操作:
关键操作 | 描述 | 如何触发 |
---|---|---|
音画合成 | 图片+音频合成视频 | 客户端接口触发,用户每录一段语音,则服务端立马调异步任务进行音画合成 |
视频mp4拼接 | 不同的视频片段拼接成一整段视频 | 客户端接口触发,用户点击预览或提交审核,服务端检查所有语音片段是否音画合成完毕,条件符合则进行视频mp4拼接 |
注意,七牛提供了视频mp4拼接的接口,但是经过实践,用ffmpeg进行本地视频mp4拼接没有任何问题,并且速度很快,所以这里所有操作都用 本地 ffmpeg 来进行
ffmpeg 不具体介绍,详情可自行google:
官网:https://ffmpeg.org/
参数详解:https://zhuanlan.zhihu.com/p/31674583
具体ffmpeg的命令执行操作,第一版的执行如下:
关键操作 | 描述 | ffmpeg操作和参考 |
---|---|---|
音画合成 | 图片+音频合成视频 | ffmpeg -i 1976.aac -i mulan.jpg -acodec aac -strict -2 -vcodec libx264 -ar 22050 -ab 128k -ac 2 -pix_fmt yuvj420p -y conf_liutao_test1.mp4 参考来源:https://blog.51cto.com/cjxkaka/1569109 |
视频mp4拼接 | 不同的视频片段拼接成一整段视频 | 如下 |
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'
$ ffmpeg -f concat
-i mylist.txt
-c copy output
不同的视频片段拼接成一整段视频
参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答
3.2 遇到的问题和优化
问题1. 音画合成的视频,在有些浏览器中无法拖动进度条
咨询了人森导师手哥,他给我介绍了一个工具:mediainfo,该工具可以查看视频详情,如音轨(Audio)和画面(Video)的时长,通过该工具可以看到通过第一版操作音画合成的视频,画面时长只有40ms,然而音轨时长却有7s,这里存在严重的不同步,因此在有些浏览器(safari)中并不能正常拖动进度条播放:
问题1的解决办法
参考:Combine one image + one audio file to make one video using FFmpeg
中"community wiki"的回答,使用如下ffmpeg命令可以正常生成Video_Duration和Audio_Duration接近的视频
ffmpeg -loop 1 -i xuanwu.jpg
-i 1.aac
-c:v libx264 -tune stillimage
-c:a aac -b:a 192k -pix_fmt yuvj420p
-shortest liutao_test_2.mp4
问题2:将不同的音画合成后的视频片段拼接起来后生成的 最终课程录制视频,会有音画不同步的问题
现象是明明是第一个PPT的录音,画面已经翻到PPT第二页了,录音还在播放第一页PPT尾段的录制语音
原因:通过 mediainfo 查看最后生成的 最终拼接视频,发现还是存在 Video_Duration和Audio_Duration 不一致的问题
应该是第一步音画合成的视频片段本身就有 Video_Duration和Audio_Duration 不完全一致,将他们拼接起来后,是音轨和画面轨道分别拼接,最后两条轴出现了不一致的问题。
因此,我们需要在第一步音画合成的时候做处理,让 Video_Duration和Audio_Duration 保持严格一致或尽量接近
问题2的解决办法
在音画合成后,多一步操作,对合成的视频片段,进行人为剪裁~让视频的 Video_Duration和Audio_Duration 保持一致:
ffmpeg -i input.mp4
-ss 00:00:00
-t 00:00:11.72
-acodec aac -vcodec h264
-strict -2 cut_output.mp4
如此生成的视频 Video_Duration和Audio_Duration 不会有太大差距。
问题3:安卓端的播放器,播放合成的课程视频,依然无法拖动视频的进度条
和安卓端同学沟通后,定位问题是视频缺少关键帧,需要为视频加入关键帧
问题3的解决办法
参考:https://codeday.me/bug/20180927/259812.html
在音画合成截断,就针对视频插入关键帧,关键命令:
ffmpeg -x264-params keyint=1:scenecut=0
上面的keyint=1表示每隔1帧插入设置一个关键帧
问题4:音画合成的速度特别慢,音画合成生成的文件也特别的大
首先观察现象,发现 图片大小为 212k,音频 .aac 文件大小为 132k,生成的视频文件居然会是540k
怀疑是帧率问题,google了一下,ffmpeg指令如果不人为设定帧率,默认帧率为25,而我们音画合成的视频就是一张图片,并不需要太高的帧率,这个地方应该可以优化下
问题4的解决办法
参考:https://zhuanlan.zhihu.com/p/31674583
经过人为设置帧率为1,生成文件大小优化为356k
人为设置帧率为1的关键指令如下:
ffmpeg -r 1
同时,写了个小脚本,做了下实验验证,人为设置帧率,也大大降低了处理速度:
实验:对比使用 -r 2 设置帧率(fps) 来对静态图的mp4处理速度和大小进行优化
第一组:帧率使用默认值为25的处理:
Array
(
[command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k.mp4
[spend] => 46401.793956757ms
)
第二组:帧率认为设定为2的处理(使用 命令参数 -r 2 认为指定帧率为2):
Array
(
[command] => ffmpeg -loop 1 -i mulan.jpg -i 1_min.aac -r 2 -c:v libx264 -c:a aac -b:a 64k -pix_fmt yuvj420p -shortest liutao_test_1min_64k_r2.mp4
[spend] => 21741.201877594ms
)
生成文件大小的对比
[med@qa liutao]$ du -ak liutao_test_1min_64k.mp4 liutao_test_1min_64k_r2.mp4
1404 liutao_test_1min_64k.mp4
548 liutao_test_1min_64k_r2.mp4
从上面的实验看起来,针对1分钟的音频,人为设置帧率为2使得处理耗时降低了至少50%,生成文件大小降低了近60%
问题5:音画合成后的视频,截断后又丢失了关键帧
音画合成后的视频,是带有关键帧信息的,为何截断后又丢失了关键帧?
经过仔细对比,发现音画合成和截断的命令,有着细微差距
1,音画合成:
ffmpeg -loop 1
-i mulan.jpg
-i 2191.aac
-r 1
-c:v libx264 -x264-params keyint=1:scenecut=0
-c:a aac
-b:a 32k -pix_fmt yuvj420p
-shortest
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4
-ss 00:00:00
-t 00:00:06.80
-acodec aac
-vcodec h264
-strict -2 output1_cut.mp4
仔细观察上面两个命令,经过google,发现 【-c:a】和【-acodec】是一个意思,表示音频编码方式,【-c:v】和【-vcodec】是一个意思,表示视频编码方式
这里两个指令的 视频编码方式,一个指定的使用 libx264,一个使用h264, 怀疑是这里的不一致导致关键帧丢失
经过试验,发现猜测正确。
问题5的解决办法:
将音画合成和视频截断的音频解码方式统一为 libx264,就能保证截断后视频的关键帧不丢失:
1,音画合成:
ffmpeg -loop 1
-i mulan.jpg
-i 2191.aac
-r 1
-c:v libx264 -x264-params keyint=1:scenecut=0
-c:a aac
-b:a 32k -pix_fmt yuvj420p
-shortest
liutao_test_2191_mulan_r1_key1.mp4
2,截断:
ffmpeg -i output1.mp4
-ss 00:00:00
-t 00:00:06.80
-acodec aac
-vcodec libx264 -x264-params keyint=1:scenecut=0
-strict -2 output1_cut.mp4
3.3 最终的视频处理命令
三个步骤:
- 音画合成,图片+音频合成视频
ffmpeg -loop 1
-i mulan.jpg
-i 2191.aac
-r 1
-c:v libx264 -x264-params keyint=1:scenecut=0
-c:a aac
-b:a 32k
-pix_fmt yuvj420p
-shortest liutao_test_2191_mulan_r1_key1.mp4
该指令人为设置合成帧率为1,降低处理耗时和生成文件大小,
人为设置关键帧间隔为每间隔1帧设置一个,解决安卓RN播放无法拉动进度条的问题
- 对音画合成后的视频片段进行截断
ffmpeg
-ss 00:00:00
-t 00:00:20.096
-accurate_seek
-i liutao_test_pre_2191.mp4
-acodec aac
-vcodec libx264 -x264-params keyint=1:scenecut=0
-strict -2
liutao_test_final_2191.mp4
参考:我是CSDN博客链接
截断是为了保证音轨长度和画面轨道长度
尽量保持一致,杜绝拼接后的音画不同步问题
- 视频mp4拼接,不同的视频片段拼接成一整段视频
$ cat mylist.txt
file '/path/to/file1'
file '/path/to/file2'
file '/path/to/file3'
$ ffmpeg -f concat
-i mylist.txt
-c copy output
参考来源:我是Stack Overflow链接
参考上面 Stack Overflow回答中”Jack Miller“ 的回答