SH-SSS丨从人设到音色——基于说话人属性特征的语音合成

SH Symposium Series on Speech (SH SSS 2022)

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第1张图片

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第2张图片

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第3张图片

主题

从人设到音色——基于说话人属性特征的语音合成

嘉宾

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第4张图片

杨智涵,清华大学深研院硕士生,主要研究方向为多模态语音合成,脸像相关语音合成。合作文章曾发表于AAAI、IJCAI、IJCNN等国际会议。

概述

个性化语音生成展现出了巨大的应用前景,如虚拟人语音合成、自动配音等。除了要求合成丰富多样的语音之外,这些应用还特别期望合成的声音特点符合人们对角色的人物背景设定、外貌特征等的预期。例如,在虚拟新闻主播这类应用中,人们通常希望其声音具有沉稳庄重的特点,以保证视听觉两个模态所传达的说话人身份特质的一致性;而对于有声小说等应用,虽然没有人物画面,但是人们依旧希望依据角色的人设特点生成合适的声音,如大叔音、少年音等。

纵观各类应用场景,这些说话人具有自己独特的“人设”,是指导语音合成的参考依据。因此,本文提出基于人设,也就是说话人属性特征的信息,来合成语音,达到个性化的声音定制的目的。说话人属性特征是描述说话人生理属性和社会属性的一系列特征,如:年龄、性别、人格等。引入说话人属性特征的概念,使得面向有声小说等应用的声音定制化语音合成成为可能,用户可以设定或修改人物属性特征,从而操纵合成语音的声音特点。同时,该方法也解耦了不同因素对于声音特征的影响,使得语音的合成及定制具有可解释性。

题 目

从人设到音色——基于说话人属性特征的语音合成

期 刊

IJCNN 2022 神经网络国际联合会议

作 者

杨智涵、吴志勇、贾珈

合成

https://scgss.github.io/Speaker-Characteristics-Guided-Speech-Synthesis/

议程

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第5张图片

参与方式

直播将通过语音之家微信视频号进行直播手机端,或点击链接预约:

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成​xjw.h5.xeknow.com/sl/2gToAmicon-default.png?t=M85Bhttps://link.zhihu.com/?target=https%3A//xjw.h5.xeknow.com/sl/2gToAm

SH-SSS丨从人设到音色——基于说话人属性特征的语音合成_第6张图片

你可能感兴趣的:(SH,Symposium,Series,on,Speech)