神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)

上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:

  1. 处理速度慢。
  2. 存在幻听现象,字幕准确度不太理想。
  3. 要安装比较多的环境才能运行,对一般用户不太友好。

本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源

对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。

1. 优化处理速度

在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU 5900X、GPU 4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕所花的时间如下表所示:

使用模型 tiny base small medium large
GPU
识别速度(s)
240.86 252.37 193.85 224.00 291.68
CPU
识别速度(s)
1599.76 太慢了不测了 太慢了不测了

你可能感兴趣的:(神经网络实用工具(整活)系列,神经网络,whisper,人工智能)