SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。
SeamlessM4T 模型支持以下任务:
语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)
我们正在发布 SemalessM4T v2,这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比,该新模型在质量以及语音生成任务中的推理延迟方面有所改进。
要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息,请访问 SeamlessM4T 自述文件或模型卡
SeamlessExpressive 是一种语音到语音翻译模型,可捕捉韵律中某些未充分探索的方面,例如语速和停顿,同时保留语音风格和高内容翻译质量。
要了解有关 SeamlessExpressive 模型的更多信息,请访问 SeamlessExpressive 自述文件或 模型卡
SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。
SeamlessStreaming 模型支持以下任务:
语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
自动语音识别 (ASR)
要了解有关 SeamlessStreaming 模型的更多信息,请访问 SeamlessStreaming 自述文件或模型卡
先决条件之一是 fairseq2,它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外,它还依赖于 libsndfile,而您的计算机上可能没有安装该文件。如果您遇到任何安装问题,请参阅其自述文件以获取进一步说明。
pip install .
转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ,大多数包管理器都可以提供该工具。
https://github.com/facebookresearch/seamless_communication
网站/论文: https://ai.meta.com/research/seamless-communication/
HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724