When Large Language Models Meet Speech: A Survey on Integration Approaches
主要内容研究背景:大语言模型(LLMs)在自然语言处理领域取得显著进展,其与语音的融合具有广泛应用前景,但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成:通过级联集成、LLM重打分和LLM生成式错误纠正等方式,利用文本作为LLMs的输入和输出,处理语音相关任务,但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成: