大模型之二十七-语音识别Whisper实例浅析

Whisper简介

Whisper是OpenAI于2022年9月开源的一个多语种识别模型,目前支持99种语言,是目前性能最好的开源多语种识别ASR大模型,第一版版使用了68万小时标注好的语料预训练模型,而large-v3的标注数据超过了500万小时,其paper中并没透露使用语料的详细来源,估计是爬了一些版权数据,在Huggingface上提到模型有很强的泛化能力,能够在未经特定训练的情况下处理新的语言或任务,同时可以使用fine-tune的方式提高特定语言的识别性能。

开源的Whisper情况如下:

Size Parameters English-only model Multilingual model Required VRAM Relative speed Layers Width Heads
tiny 39 M tiny.en tiny ~1 GB ~32x 4 384 6
base 74 M base.en

你可能感兴趣的:(神经网络&人工智能,语音识别,whisper,人工智能)