北京时间 2025 年 3 月 21 日,OpenAI 再次上演“深夜惊喜”,悄无声息地开了一场直播,推出了三款全新的语音模型:
相比前代 Whisper 和主流的 TTS 方案,OpenAI 这次的升级不仅带来了更强的性能,还直接降低了 API 价格,让语音 AI 的普及进一步加速。那么,这次的三款模型到底怎么样?值不值得用?让我带你深入解析!
STT(Speech to Text)技术,简单来说就是把语音自动转换成文本,广泛应用于字幕生成、会议记录、AI 助手、播客转写等场景。
OpenAI 这次发布的 STT 模型有两款:
模型 | 特点 | 适用场景 | 价格 |
---|---|---|---|
gpt-4o-transcribe | 高精度,支持复杂场景 | 会议记录、访谈、音频转录 | $0.006/min |
gpt-4o-mini-transcribe | 轻量版,速度更快,价格更低 | AI 字幕、短音频处理 |