【AI视野·今日Sound 声学论文速览 第六期】Mon, 18 Sep 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 18 Sep 2023
Totally 1 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第六期】Mon, 18 Sep 2023_第1张图片

Daily Sound Papers

Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech
Authors Junjie Li, Ruijie Tao, Zexu Pan, Meng Ge, Shuai Wang, Haizhou Li
目标说话者提取旨在从辅助参考指定的多说话者混合物中提取特定说话者的语音。大多数研究都集中在目标语音与干扰语音高度重叠的场景。然而,这种场景只占现实世界对话的一小部分。在本文中,我们针对稀疏重叠的场景,其中辅助参考需要同时执行两项任务:检测目标说话者的活动并将活动语音与任何干扰语音分开。我们提出了一种名为 ActiveExtract 的视听说话人提取模型,该模型利用视听活动说话人检测 ASD 中的说话活动。 ASD 直接提供目标说话者的帧级活动,而其中间特征表示经过训练以区分可用于说话者解缠结的语音唇形同步。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(Sound,audio,Papers,人工智能,声学,音频,振动)