论文研究了语音处理系统的能力,该系统只是为了预测互联网上的大量音频成绩单而训练的。当扩展到 680,000 小时的多语言和多任务监督时,生成的模型可以很好地推广到标准基准,并且通常与先前的完全监督结果竞争,但在零镜头传输设置中无需任何微调。与人类相比,这些模型接近其准确性和稳健性。论文正在发布模型和推理代码,作为进一步研究健壮语音处理的基础。
code: https://github.com/mistralai/mistral-src
colab: please try it https://github.com/camenduru/Mistral-colab
Please join our discord server https://discord.gg/k5BwmmvJJU
Please join my patreon community https://patreon.com/camenduru