SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

SH Symposium Series on Speech (SH SSS 2022) 

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 

来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第1张图片

 分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第2张图片

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第3张图片

主题 Tittle

跨年龄声纹识别:学习年龄不变的说话人特征

嘉宾 Author

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第4张图片

覃晓逸,武汉大学博士生,主要研究方向为声纹识别、语音鉴伪,已发表十余篇国际会议论文。全球语音大赛经验丰富,并获顶级赛事多项奖牌,参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源,曾获SASV2022 第二名,M2MET2022 第一名,VOXSRC2020 TRACK2 第三名,VOXSRC2019 TRACK2第三名,VOICES2019 SV 第三名,ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具,有丰富的语音识别实战经验。

概述 Abstract

近些年说话人识别取得了巨大的发展,但是由于相关数据的缺乏,很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来,因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此,我们采用一种人脸估计年龄的方法,通过识别视频数据来预测估计每个音频段的说话人年龄。由此,我们构建了基于VoxCeleb的跨年龄测试集(Vox-CA),其中正样本对有意选择较大年龄跨度的数据。此外,在选择负样本对时参照Vox-H集,考虑国籍和性别的影响。经过测试发现,基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%,这一结果表明跨年龄场景的困难程度。因此,我们提出了一种年龄解耦对抗学习(ADAL)方法,以缓解年龄差距的负面影响,减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%,优于基线系统。相关资源已经在Github上开源。

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第5张图片

题 目 Tittle

Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings

期 刊 Journal & Comments

InterSpeech2022

作 者 Authors

覃晓逸,李娜,翁超,苏丹,李明

论文地址 Url

https://arxiv.org/abs/2207.05929

论文代码 Code

https://github.com/qinxiaoyi/Cross-Age_Speaker_Verification

议程

Program Overview

时间 主题 嘉宾
19:00-19:40 跨年龄声纹识别:
学习年龄不变的说话人特征
覃晓逸
19:40-19:45 Q&A

参与方式

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

投稿 Call For Papers

在语音领域,您的文章内容具有技术创意性重要性论文解读清晰均可投稿!

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征_第6张图片

投稿方式

投稿邮箱

[email protected]

你可能感兴趣的:(SH,Symposium,Series,on,Speech,学习,语音识别,人工智能)