编者按: 随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。LiveVideoStackCon 2022上海站大会邀请到了爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术 —— 奇声(IQDubbing)的技术实现与应用实践。
文/李海
整理/LiveVideoStack
非常荣幸能有机会和大家分享爱奇艺在影视剧配音场景的应用技术。简单自我介绍下,我是李海,目前主要负责爱奇艺在成都的算法团队,负责影视剧AI配音技术方面的研究和工作。
本次分享将从以下几个方面展开:第一,从配音知识展开介绍现代影视剧配音的背景,面临困难与挑战,第二部分重点介绍奇声(IQDubbing)的业务体系与流程;第三部分重点介绍奇声(IQDubbing)的技术架构及关键技术实现;最后,会简单介绍下目前奇声(IQDubbing)的一些应用和实际效果。
1.1 配音流程
什么是配音?听起来很简单,为影视剧配声音,不就是将人说话的声音配上去吗?刚开始时我也是这么认为,但其实这里的影视剧配音不仅是指人声还包含影视剧中其他可能存在的更多声音,所以我们广义的理解配音应当是为影片加入声音。要想将AI技术真正的落地到影视剧配音当中,在解决人声问题的同时还要解决影片中其他声音的部分。
那么,配音究竟是在做什么?是怎样的一个流程?
在我们拿到影视剧素材后,第一步首先要根据技术手段对素材进行段检查和格式规整;第二步就是翻译。在爱奇艺AI配音场景下有很多海外剧集,海外剧包含英语、印度语、俄语等其他各国语言,翻译则是双向的,在爱奇艺剧集出海时需要把中文翻译成对应国家语言;第三步,配音本制作。有的同学可能听说过,有点像字幕文件,内容又多于字幕文件,包含什么时候配音员应当用什么样的语气说什么样的话;第四步才是广义理解的配音制作,试配、选角,到录音棚配音、人声合轨、配音审核;第五步就是后期制作,包含混音、字幕文件制作、审核、音效等等。以上就是完成配音的一个完整流程。
在配音时需要有专业的配音员和录音设备,如图是之前与供应商合作的真实照片。
此外还需要混音室,空间音频都需要在混音室完成,这些对环境有一定要求,有一般的混音室和影院级混音室,出来的效果不尽相同,例如双声道立体声,5.1 7.1多声道。以上是完整的配音流程。
1.2 业务背景
爱奇艺配音场景下有两个大的业务方向。第一个方向是译制片,海外大片引进,美国的好莱坞,印度的宝莱坞,以及欧洲的影片,不限制语种。第二个方向是出海剧,这是个挺热的话题,包括爱奇艺、腾讯视频的主流视频平台都在做出海,将国内国潮剧,电影电视推出至海外,其中东南亚是比较重要的一环,这时我们就需要将影视剧集翻译成英语,泰语等语种。
1.3 配音剧遇到的困难和问题
在做配音之前首先我们要先了解配音剧遇到的困难和问题:
第一个问题:待配音数量大。经过调研,近五年国内从海外引进2000+电影,其中非常少部分在电影院见到的才有中文配音。几乎每个视频平台都在出海,有海量的片源,出海需要配置当地语种,不是所有人都懂中文,在越南、泰国落地都需要配置当地语言。每年引进2000多部电影,还有海量片子出口,一部电视剧大概几十集,都要做中文或海外配音,人工工作量很大。
第二个问题:音色难匹配,找人配音时,一部电影角色20+,找20多个人配一部剧难度大,电视剧则更难。
第三个问题:配音员难找,影视剧的配音来说难度远远高于广播剧,要求有更好的配音能力,对影视剧有更高的理解、表现力,资源少,中文配音员还能找到,但出海时小语种配音员非常难。
第四个问题:国际声问题,在影视剧集中听到的除了对白以外的音轨就叫国际声,通常做mix轨是DME轨,对白(dialog)、音乐(music)和音效(effects)。除了D轨外的ME轨就是国际声,配上泰语,泰语的对白轨做成了泰语的配音音轨,国际声是配音的前提,但问题是很多片子没有国际声,或者是有却存在瑕疵。
第五个问题:自动化程度低,配音大多数为手工化,效率不太高,不利于影视制作工业化。
第六个问题:制作周期长,后期都是按月计算时间,好片子很难快速上线,用户很难更早欣赏到好片。
为解决上述问题,爱奇艺基于若干个AI模型研发了奇声IQDubbing的解决方案,下面和大家分享下具体的业务流程和体系。
2.1 IQDubbing业务流程
我们以倒序的逻辑来进行介绍,影视剧配音最后是要生成mix轨,输入分别多音色多角色分轨与完整国际声。多音色多角色分轨的流程是找表现力不错的配音人员将所有字幕台词配音,通过IQDubbing的工具包进行检查,对它按照角色进行分轨,如此一来就有多角色分轨,利用Voice Conversion模型进行变声,最后得到多音色多角色分轨。其核心在于Voice Conversion模型,后面会有提及。
通过上图生产线得到多音色多角色分轨,但这还不够。所以我们还需要对国际声进行制作,其中有两个问题:没有国际声只有原声,我们需要通过AI模型,借助国际声分离模型得到国际声,这时得到的国际声仍然有瑕疵,需要再通过人工加技术手段进行修复;有国际声但有瑕疵,通过算法加人工进行修复,得到完整国际声。将多音色多角色分轨和完整国际声两条音轨进行混轨,最后得到上线的正式音轨。
2.2 IQDubbing优点
IQDubbing的解决方案有以下优点:音色丰富,包含多语种和多音色。多语种包括中文、泰语、越南语。多音色包括男女老少,按种类分类女的有干练女强人、阳光男孩等等。
音色美化,在做配音时可能会出现真人音色与角色设定不太符合的情况,这时可以通过IQDubbing来进行Voice Conversion,优化其音色符合当前角色设定。
国际声是除了对白以外的音轨(M+E轨),通过AI模型开发了人声分离模型,留下M+E轨。在做国际声分离时AI产出的国际声不能直接用,因为其结果不够完美,这里会引入人工部分进行优化,这也是业界常用的方法。
音效包括空间音频,支持电话、对讲机、机器人、外星人音效,也可以根据当前场景定制,对原声进行评测,发现音效及时开发。这里演示了外星人音效前后对比,电话音效前后对比。除此之外还有其他音效,但还有进步改进开发空间,音效的添加最重要的问题是什么时候用什么样的音效,音效是靠人检查,再去添加音效,填音效可以自动化,填音效的时间点没法自动化,需要继续交流研究。
3.1 IQDubbing技术架构
IQDubbing与其他解决方案类似,底层基于GPU与CPU,它是综合的解决方案,有很多算法。在框架层主要用TensorFlow和Pytorch,当下比较流行的框架除了使用深度学习的方法还会使用传统DSP方法,例如降噪EQ等。
应用算法上核心是Voice Conversion声音转换,在声码器等方向上我们也做了很多工作,后续会展开讲。对于配音场景则更关注表现力与匹配场景下的特殊需求,针对此方面进行优化。
除了Voice Conversion我们还运用其他技术包括声纹技术、人脸识别、人声分离等等。以上是我们所运用的部分算法,IQDubbing是一个全链路的解决方案,是基于所有单点技术开发的平台,将所有的单点技术按照配音流程串联起来。
3.2 Voice Conversion(语言转换)
这里和大家具体介绍下Voice Conversion,其实就是将其中一种音色转换成另外一种音色,保留所有内容,改变内容以外的其它东西。
Voice Conversion的用处包括:说话人转换,主要用在娱乐场景,例如短视频APP会有将男性声音转换成萌妹,这方面INTERSPEECH,ICASSP都有此类研究歌声转换是挺不错的应用。
隐私保护,小朋友一人在家,回答知道是小朋友,这时将小朋友声音转换成父母声音,这也是一定程度的个人和隐私保护。
进行风格转换,运用Voice Conversion进行风格转换。在2019年INTERSPEECH有论文研究,最近也陆续有论文解决。
Whisper-to-Normal,例如在图书馆中有电话,一般用悄悄话来回答,对面听不清,在手机中做应用,将悄悄话转换为正常说话,这是Whisper的场景。在2019年SSW有此类研究,有兴趣可以去查阅。
口音转换,普通话四川话互转,口音转换比较好的应用是一个人学习外语的场景,听标准外语学习效率低,但听的是自己口音外语的听力,效率会高很多,但是自己又不会说,可以用Voice Conversion转换后学习,效率更高。数据增广,做TTS有时会发愁于数据不够,可以用Voice Conversion增广数据,加上噪声等,这方面研究蛮多,在2017年很早就有研究。
Voice Conversion最早在2017或是2016年研究,有很多种框架,这里简单介绍其中几种主流框架。
首先是基于PPG,通过ASR在Speech里提取PPG,用解码器生成对应的目标语音;其次是非常朴素的ASR-TTS构架,用ASR文本识别出,再文本转语音直接合成。做语音的朋友一眼就能发现问题,在Speech转到Text过程中,情感与韵律丢失,只能单纯的转音色,韵律无法保留。然后还可以用AutoEncoder,这个框架比较流行,包括爱奇艺也用此框架,会对说话内容Speaker进行建模,后续会详细提及。最后是基于GAN,做深度学习的朋友会比较熟悉,几乎所有的场景都能用GAN去做,语言Voice Conversion也不例外,用CycleGAN,StarGAN,AdaGAN效果也不错,在VC模型声码器都运用到了GAN框架。
3.3 配音场景的特殊性
接下来和大家简单介绍Voice Conversion的技术。它针对配音场景有什么特殊性呢?VC在一些APP上大家可能都体验过了,是娱乐智能数字化场景,用Voice Conversion在影视剧配音场景有什么特殊性?
第一是表现力要求高,电视剧中的表现力丰富,抑扬顿挫,喜怒哀乐。对于每一种情感的颗粒度很细,在做Voice Conversion时要对表现力有高要求,有别于有声书,相对来说影视剧情感要求高。
第二是音色要求丰富,一部电影稍微丰富都会有超过20个角色,且男女老少,每个年龄段有很多种风格,老年有沉稳干练的,男生有阳光干练的风格,综合起来音色丰富程度高。
第三是音质要求高,影视剧以48K采样为主。
3.4 配音VC技术迭代
3.4.1 第一代框架
影视剧配音场景下,爱奇艺Voice Conversion框架第一代是基于Chain ASR模型编码器提取BN作为内容信息,对说话内容与Speaker进行建模,整体通过基于流行的Tacotron合成框架进行变声模型训练。声码器建模使用PWGAN,第一代发现配音场景下发现韵律保留程度不高,于是我们针对第一代框架进行了优化迭代。
3.4.2 第二代框架
基于第一代基础上加入韵律模型,提高表现力,运用VQ-Wav2Vec训练模型,另外替换原有ASR,使用E2E的方式,时间分辨率从30ms提升到10ms。其对ASR不重要,但对Voice Conversion非常重要,在做声音转换时最大程度上保留情感表达能力,将时间分辨率降低提升发音准确性和音质的细腻程度,以上是我们目前所使用的框架。
3.5 配音VC优点
它的优点如下:表现力高,测试集涵盖了不同的情感表现能力。中文与泰语情境下,MOS能达到4.0以上;音色丰富,除了支持中文、越南语、泰语外,还支持多年龄段多风格音色;高采样率,目前基本是32K采样,我们仍然在想办法继续提高声码器采样率。
3.6 配音评价体系
评价体系是非常重要的,我们需要从技术和业务两个维度评判声音输出。
技术维度方面,是算法团队自己的维度,简单说是通过技术角度测评。中文与泰语请到Local Speaker测评迭代效果,建立比较完备的测试集,来源于对应语种的影视剧。语种包括中文、泰语、越南语,从性别、年龄、音色情绪将测试集进行分类,每种类型有若干测试音频。
另外业务维度测评也非常重要,但也很简单,请普通用户角色做测评,没有固定标准,让用户去看去听,让其发现可感知错误,例如发音错误、情感表现力不足等等。以上是从两个维度来做测评。
3.7 其他辅助功能
IQDubbing是一个比较综合的解决方案,不仅仅是单点技术,还包括以下功能:
台词本制作,辅助人工制作台词本;
音轨漏配/错配检测,检查录制好的音轨中的漏配错配,提高流程的整体效率;
音轨自动拆轨,配音后是整轨,需要将什么时间什么人说的什么话进行分轨;
智能选角,根据角色的人设自动选择合适的配音模型。
当完全自动化后,如何得知选哪个音色作为配音,影视剧中原始音色音库越来越多,全靠人力工作量很大,人为因素影响较多,我们可以通过算法达成,参考声纹情绪在音库选择比较合适的配音音库。当然除了上述功能外还有更多其他功能。
4.1 上线效果
目前爱奇艺配音已经在中文主站和海外站(泰国站、越南站等)上线,中文主站包括007系列大战皇家赌场,终结者和007黑日危机等都是当家热剧。海外站有唐门美人江湖、老九门等。电影有50+部,电视剧超过200部,都是AI配音制作。正式上线后从会员体验和收入来看都还是不错的。
4.2 业界影响
除了在实践应用中的探索,学术相关我们也进行了许多研究。累计3篇语音类顶级国际会议论文,包括ISCSLP、InterSpeech,有10多个国家发明专利,获得5个软件著作权,多家主流媒体的报道,近期获得中国多媒体企业创新产品奖,受到业界蛮多的关注。
4.3 未来计划
IQDubbing所表现出来的成绩并不算完美,未来还有很多地方需要优化:
更高的表现力,虚弱高亢场景转换效果仍然不太满意;
更强辨识度,当原始Speech通过VC模型,原始音色剥离不清晰,多个音色还有一定相似性;
更细腻音质,自然度不高,有少许电流声;生产流程更加自动化,角色推荐自动化流程加至生产流程中;
音库中更丰富音色,现在IQDubbing是做电影配音,后续想用在电视剧配音,电视剧的角色程度远远超过电影;
更好兼容度,现在对输入要求有点高,未来想兼容“平民化”配音。
4.4 总结
最后,做个简单的总结:本次分享首先和大家介绍了配音行业的业务背景,了解配音制作流程和遇到的问题等;其次和大家分享了IQDubbing的业务体系,AI如何赋能传统配音;然后介绍了IQDubbing的技术体系包括影视剧配音场景的Voice Conversion与其他相关技术;最后展示了下IQDubbing上线效果及待解决问题及计划。
以上就是本次分享的全部内容,谢谢。
(全文完)