Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析
一、视听语音增强领域近三年研究进展多模态融合与模型轻量化多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。轻量化模型设计:中国科大与腾讯天籁实验室