android 配音方案研究

配音方案

后台以zip压缩包的方式提供两个视屏频文件,和一个lrc文件 ,一个视频是带背景音和人声,另一个视屏只带背景音。
lrc 里面提供具体要配音的 时间段和字幕信息。

android 使用ffmpeg 去实现 https://github.com/tanersener/mobile-ffmpeg

大致思路是 先把所有的 自己录制的配音音频 定点拼接起来 再和带背景音的视频 混音 生成一个新的视频

大致分为两步

1,配音定点插入 生成 一条完整的配音音频

ffmpeg -y -i /storage/emulated/0/1/audio/test1.mp3 -i /storage/emulated/0/1/audio/test2.mp3 -i /storage/emulated/0/1/audio/test3.mp3 -i /storage/emulated/0/1/audio/test4.mp3 -filter_complex "[1]adelay=10000|10000[1_]; [2]adelay=20000|20000[2_]; [3]adelay=30000|30000[3_]; [0][1_][2_][3_]amix=4" /storage/emulated/0/1/audio/apptend.mp3

这条命令的意思是 test1.mp3 和 前面延迟了10s 的test2.mp3 和 前面延迟了 20s的 test3.mp3 和 前面延迟了30s的 test4.mp3 混音 生成 apptend.mp3

使用 -filter_complex adelay 和 -filter_complex amix 成功实现了多条音频定点插入 生成一条新的音频,相当于第一段配音从起始点插入 ,第二段配音从 第一段要配音的视屏 末尾点 插入 以此内推,生成一段新的配音视频

以为为java 封装获取命令

/**
*  key  对应某段配音 的本地地址
*  value 配音对应在原视频的 截止时间
*  
  outputAudioPath  输出地址
*/
public static String getmixAudiocommandLine(LinkedHashMap para, String outputAudioPath){
  String preCommand = "-y";
  String lastCommand=" -filter_complex  \"";
  int index=0;
  String  tip="_";
  for (Map.Entry entry : para.entrySet()) {
      index++;
      String audioAddress = entry.getKey();
      preCommand+=" -i "+audioAddress;
      int audioLength = entry.getValue();
      if (index==para.entrySet().size()){
          for (int j=0;j

2, 用生成完整的配音音频和zip包里的 带背景音的 视屏混音 生成一个新的视频

ffmpeg -i /storage/emulated/0/1/video/1.mp4 -i /storage/emulated/0/1/audio/apptend.mp3 -vcodec copy -filter_complex amix=inputs=2:duration=first -strict -2 /storage/emulated/0/1/output/mix.mp4

如下为 java 封装

/**
* 使用ffmpeg命令行进行音频混合
* @param srcFile 源文件
* @param mixFile 待混合文件
* @param targetFile 目标文件
* @return 混合后的文件
*/
public static  String mixAudio(String srcFile, String mixFile, String targetFile){
   String mixAudioCmd = "-y -i %s -i %s -vcodec copy -filter_complex amix=inputs=2:duration=first -strict -2 %s";
   mixAudioCmd = String.format(mixAudioCmd, srcFile, mixFile, targetFile);
   return mixAudioCmd;
}

性能

华为p20 手机 4段 音频 和 一个 5M多的1分钟17秒的视屏 合成 总共花费 4s ,支持mp3 ,wav aac m4a 格式音频 MP4视频

弊端

使用的都是开源库,底层都是c实现,出问题了基本无法修改,各种机型的兼容性 也无法得知。

你可能感兴趣的:(android 配音方案研究)