赛事报名 | 全球第一个小资源音色克隆挑战赛正式启动

全球第一个小资源音色克隆挑战赛

正式启动

竞赛简介

    文语转换(TTS)又称为语音合成,旨在将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下,语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音,几乎可以以假乱真。

    但是,这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成,特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如,仅拥有每个说话人非常少量的音频样本时,语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。即便是现有公开的音色克隆方案,对集外数据的音色复刻缺乏鲁棒性。我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务(M2VoC)。

    近年来,迁移学习、风格迁移,说话人编码和因素解耦等方面的最新进展,为低资源语音克隆的提供了潜在的解决方案。爱奇艺联合多家单位在ICASSP2021举办多说话人多风格音色克隆大赛-M2VoC,M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。作为2021年声学、语音和信号处理国际会议(ICASSP2021)信号处理挑战旗舰任务之一,非常鼓励学术界和工业界的研究人员加入《多说话人多风格音色克隆大赛(M2VoC)》挑战。 

文末点击阅读全文即可通往报名通道

 赛道任务 

              

      我们设置了以下两个任务。

01

赛道1:少样本赛道

    主办方将分别提供两个和四个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和100个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。

・子赛道1A:

    语音合成系统的搭建仅限于使用竞赛组织者提供的数据,  禁止使用除此之外的数据。

 

・子赛道1B:

    除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。

02

赛道2:极少样本赛道

    主办方将分别提供两个和四个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和5个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。

・子赛道1A:

    语音合成系统的搭建仅限于使用竞赛组织者提供的数据,禁止使用除此之外的数据。

・子赛道1B

    除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。

测评与排名

    竞赛主办方将以主观测听的的方式对目标说话人的合成测试数据进行评测,以下标准进行:

・说话人相似度:

    以说话人相似度为目标的5分制的MOS得分,即合成语音与目标说话人语音的接近程度。

・语音质量:

    针对合成语音质量的5分制的MOS得分。

・风格/表现力:

    针对合成语音的表现力/风格的5分制的MOS得分,即合成语音与目标说话人风格与表现力的接近程度。

・发音准确率:

    合成语音的发音准确率。

    根据上述标准的加权和作为挑选每个子任务最终的获奖者的依据。

    具体细节稍后公布。

数据集

竞赛组织者将在竞赛进行的不同阶段提供4个语音/文本数据集。

多说话人训练数据 (MST): 

    该部分数据由两个子集构成,包括希尔贝壳提供的AIShell-3数据集,我们称为MST-AIShell。该数据集包含来自218人大约85小时的中文普通话语音数据,语音在一个普通房间通过高保真麦克风录制,房间有一定混响和底噪。该数据集已经公开,可以从http://www.aishelltech.com/aishell_3下载。另外一个数据集称为MST-Originbeat,由起源智能提供,包括一男一女两个中文普通话发音人,语音数据在标准录音棚用高保真麦克风录制。

目标说话人校验集 (TSV):

    ・赛道1: 两个具有不同讲话风格的校验目标说话人,每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。

    ・赛道2: 两个具有不同讲话风格的校验目标说话人,每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。

目标说话人测试集 (TST):

    ・Track 1: 四个具有不同讲话风格的测试目标说话人,每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这四个测试目标说话人提供给参赛者做音色克隆,用于最终测试。

    ・Track 2: 四个具有不同讲话风格的测试目标说话人,每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这四个测试目标说话人提供给参赛者做音色克隆,用于最终测试。

 

测试文本集(TT): 

    竞赛组织者提供的句子和段落列表,参赛者使用给目标说话人搭建的语音合成系统合成语音,用于最终测试。

 

所有音频数据是单声道,44.1KHz采样率,量化位数为16bit,并配有抄本。语言为汉语普通话。

时间安排(AoE时间)

2020年11月27日:发布详细参赛指引。

2020年12月4日:竞赛注册截止,MST-Originbeat和TSV数据集公布。

2021年1月8日:TST数据集公布。

2021年1月13日:TT数据集公布。

2021年1月15日:基于TT数据集,针对目标测试说话人(TST)合成语音提交截止日期。

2021年1月29日:评测结果公布。

2021年2月5日:参赛队伍系统描述论文提交截止。

2021年2月11日:入选ICASSP的论文提交截止。

竞赛报名

    欢迎来自学术界和工业界的参赛者通过竞赛官网http://challenge.ai.iqiyi.com/M2Voc 注册,截止日期为2020年12月4日(AoE时间)。竞赛组织者会在3个工作日确认报名队伍的参赛资格。参赛队伍必须遵守发布在竞赛官网上的参赛规则。

    参赛者可以选择任意赛道和子赛道。竞赛细则将在官网上公布。关于竞赛细则的解释权利完完全归属竞赛组织方。

奖金

该比赛奖金总金额9600 USD由爱奇艺提供

每个子赛道的前两名队伍将获得奖金:

第一名: 1500 USD

第二名: 800 USD

组织委员会

    谢   磊  西北工业大学教授

    李   海  爱奇艺高级经理

    石   松  爱奇艺高级经理

    李海洲  新加坡国立大学教授

    吴志勇  清华大学副教授

    田霄海  新加坡国立大学研究员

    洪   芬  起源智能CEO  

    卜   辉  希尔贝壳CEO

联系方式

对本次赛事有任何问题或建议,请发邮件至:[email protected]

组织单位:

赛事报名 | 全球第一个小资源音色克隆挑战赛正式启动_第1张图片

也许你还想看

爱奇艺HomeAI智能语音交互系统的技术实践

爱奇艺HomeAI在语音交互领域的探索

扫一扫下方二维码,更多精彩内容陪伴你!

你可能感兴趣的:(人工智能,深度学习,html,语音识别,项目管理)