高考考入浙江大学竺可桢学院、同时获得百度奖学金和字节奖学计划双奖的硕士生、3年内发表22篇AI顶会论文、智能语音研究的佼佼者……关于任意的任何一个标签单独拎出来都已足够亮眼。今年3月,任意从浙大计算机系毕业了,他将继续在科研路上行走,探索智能语音的更多可能性,为解决人类面临的技术问题出一份力。
整数智能和任意进行了一次深度对话,聊聊FastSpeech系列和他的科研经历。
1
另辟蹊径:专注智能语音研究
任意目前在做的事情是智能语音研究,语音合成是主线,也兼顾自动作曲,歌声合成,语音翻译。
FastSpeech系列是任意的代表作,是当前工业界和学术界最热门的语音合成架构之一。任意说,“全球有无数互联网公司基于我们的技术构建语音合成服务。”
谈及FastSpeech系列诞生的契机,任意表示,刚接触语音时,发现市面上用神经网络做的语音模型是一帧一帧吐出来的,假设一秒钟的语音有一百帧,模型要运行一百次。显然,在导航、电话机器人等实际应用中,语音通常需要做到实时,这样的模型无法很好地满足实际需求。当技术降级为传统方法,语音的速度就会提升,但又会面临语音质量得不到保障的难题。在这种情况下,任意希望做一个模型,既能有神经网络高质量合成的优点,又能有较快的推理速度。于是,FastSpeech系列诞生了。
FastSpeech系列也完成了从FastSpeech到FastSpeech 2和FastSpeech 2s的迭代。
第一代基于速度快的突出优势,迅速建立了影响力,但在合成的语音质量方面不及谷歌的 Tacotron 2。
而FastSpeech 2直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高和音量等)来提高合成的语音质量,大大提高了竞争优势。现在业界应用最广的模型是FastSpeech 2,这个模型易用性很强,提供了很好的调参技巧,方便不同的公司做一些工程调优。
FastSpeech 2s则简化了模型生成链路,但由于训练成本高,应用场景少,这个模型目前还停留在理论层面。任意认为,未来要是算力继续膨胀,FastSpeech 2s应该会成为未来一个主流的模型。
在确定智能语音研究这个方向之前,任意也考虑过机器翻译和计算机视觉。但通过在微软亚研院的实习,任意逐渐沉迷于语音处理和建模,他发现这些看似难懂的一维信号里蕴含了丰富的语言学知识与人类情感。
在和自己的研究生导师赵洲沟通后,任意发现在智能语音方向的人才比较稀缺,且技术发展的深度也远远不如自然语言处理和计算机视觉,还有很大的空间,更为关键的是语音在工业界的需求很旺盛,于是将研究方向聚焦于智能语音,希望通过科研解决更多实际问题。
事实证明,任意的选择是正确的,他在小众赛道上走出了一条属于自己的路、留下了自己的足迹。
2
严谨思维:“软件工程就像搭一座桥”
任意回忆过去几年的成长经历,感谢了很多给予自己帮助的人。
大二开始,任意陆续在Dashbase(一家总部位于硅谷的创业公司)、网易等公司实习,参与了软件开发、数据挖掘、算法落地等工作。
Dashbase的CTO和任意很投缘,虽然当时CTO身处美国,但经常和任意讨论一个问题讨论到半夜,有时甚至会通宵,双方都挺享受共同去解决一个问题的过程。CTO曾对任意说过一句话:“软件工程就像搭一座桥,每一个部分都必须非常小心,稍不注意桥可能就塌了。”
任意通过在Dashbase的实习锻炼了两种思维,一种是工程思维,即每一个地方都需要非常谨慎;另外一种思维就是要让自己写的东西可拓展,这样便于后续开发效率的保持。
大三暑假,经过在浙大竺院的扎实学习和两段实习的积累后,任意投递了微软亚研的实习,并幸运地进入到机器学习组。这一段实习,让任意和科研正式结缘,仿佛打开了任意身上科研细胞的开关。也是在微软亚研院,任意遇到了科研道路上的伯乐:谭旭。
任意跟着谭旭做了一个机器翻译的项目,负责跑实验,历时两个月,以共同一作身份在 ICLR 2019 发了第一篇顶会论文。在论文截稿前一周,任意每天只睡三四个小时。任意回忆道,“当时就是间歇式睡眠,我会先跑一个实验,然后睡一会,再跑一个实验,再睡一会。”
虽然后来发了很多篇论文,但第一篇顶会论文的发表最让任意难忘。第一篇论文的驱动力就是一定要发出来,在任意看来,万事开头难,但只有发出来,他才会对后续的科研更有信心。论文发表后,微软亚研基于任意的代码,招了许多产品部门的人员来做落地。任意认为,虽然不是他自己做落地的,但也相当于认可了论文的价值。
任意在微软亚研接受了良好的科研训练,在实验设计、导师沟通、写作逻辑上都学习到很多,后来他能很清楚地知道什么样的文章能做,什么样的文章不能做。用任意自己的话说,“微软亚研是科研圣地”。这里的科研氛围很像学校,leader觉得一个想法有科研价值就可以尝试,也不强求要和公司的业务产生直接联系,这其实很难得。
3
顺水推舟:实习为科研之路做铺垫
拿到微软亚研的offer之前,任意一直觉得自己适合做工程,因为他非常喜欢从零开始把一个项目搭起来的过程,就像搭积木一样。
但在一次次的机缘巧合下,如今的他,顺水推舟地走上了科研之路。
被问及如何看待自己的天赋和努力占比,任意给出了另一种答案:有时候真的是选择大于努力,机遇很重要,机遇占一半,天赋和努力各占四分之一。
任意分享了一件很巧的事情,他和团队在做FastSpeech的时候,另外的一个互联网大厂团队也在做相似的内容,后来双方都投了同一个会议,任意团队中了。另一篇同期相似工作则于第二年投中了一个很好的会议。其实两篇论文结果都很好,但由于抢占先机,FastSpeech建立了更强的影响力。任意认为这离不开运气的加持。
当然,运气的眷顾从来不会平白无故。任意说,“机遇是建立在努力的基础上,但也不是一段时间的努力就可以获得,只是说努力了获得一个机遇的可能性会更大一点,但不代表一定会获得。”
任意在科研上的顺利离不开他丰富的实习经历,实习和科研相辅相成,帮助任意在智能语音研究方向上愈发精通。实习锻炼了任意的代码能力,而科研离不开代码,一个良好的代码管理习惯能大大提升实验效率。开发效率和模型训练效率提升,一个时间周期里能够尝试的idea数量就更多,这样实验的成功率就会高。
此外,任意认为,做过工程就会有意识地把代码写得更干净,然后让别人看得懂,这便于降低交流成本。由于做项目涉及到很多合作,在团队协作过程中,任意会有意识地进行代码规范、项目管理,使得不同的人写的代码看起来像一个人写的,如此,整个团队的运作效率得到极大提升。
4
未来可期:为解决人类技术问题出力
对于未来,任意保持开放心态,没有给自己设限。虽然短期内依然会专注于智能语音研究领域,但对于元宇宙、AI+科学、AI+艺术等等,任意都有很多期待。他喜欢尝试和挑战,并不认为一个领域就要做十年甚至一辈子。任意希望能十年后的自己依然能坚持技术的初心,在解决人类面临的技术问题上,付出自己的一份努力。
情感化语音缓解现代人孤独、技术复活逝去亲人的语音、语音合成助力聋哑人发声、AI辅助创作者做更好的音乐……任意还是期待能通过技术提升来解决更多实际相关的问题,能产生一定的社会意义。
作为一名世俗意义上的“后浪青年”,谈及内卷,任意说:“我确实很努力,但我觉得卷好像是做一件事为了把别人挤下去,如果做一件事是因为热爱的话也不是卷。把一件事情做好、把科研做好也不是零和博弈,不是损害别人的利益,当然,广义来说,可能你很努力也是卷。”
《模仿游戏》是任意最喜欢的电影,电影讲述了“计算机科学之父”图灵的传奇人生。任意被电影传递的钻研精神打动,认为做科研也是一样,总会碰到前人没有碰到的问题,虽然没有图灵那么难的问题,但也要迎难而上。
不管是他的科研经历,还是实习经历,还是在各个关键节点的选择或机遇,甚至是喜欢的电影或游戏,最后都很“一体化”,最后都回到了任意这个人本身。
任意,人如其名,随其内心,自在丰盛。
对任意最好的祝福,是祝他继续很“任意”,行其所行,奔赴在热爱里。
整数智能好奇心专栏
如何保证高质量的数据集生产
在进行智能语音研究的过程中,任意有大量语音方面数据采集和数据标注的需求。任意对整数智能的交付质量表示满意,认为交付速度往往超出预期,一般预期一个月完成的工作量,整数智能通常在2-3周之内便能交付。由于任意及其团队需要的数据个性化较强,整数智能的项目经理会进行专门对接,甚至会让技术人员加入讨论,以达到不断迭代的标注要求。此外,任意对彼此合作中的沟通效率等方面都给出了高评价。
除了便利的数据标注平台,整数智能还自研AI辅助工具以提高数据生产效率,包括光流跟踪算法、OCR预标注系统、ASR辅助音频采集等,能节省大量的人力标注时间与复核成本。
另外,整数智能标注平台可以通过多终端无缝连接,全场景满足用户需求,可对质量进行灵活抽查、动态分阶段验收,帮助AI企业随时把控数据标注质量及进度,保证信息的同步性,让数据真正可靠可控。不仅如此,为提高数据集的交付质量,整数智能对数据生产全过程实现了全方位的质量把控。在人员管理方面,涉及到数据生命周期的各级人员都参与到质量管理中,确保经手数据的每一方都能严控质量。
正因为持续的技术能力和行业积淀,让整数智能成为了人工智能产业联盟的产业数据组专家,共同参与制定AI行业的数据标准和白皮书工作,得到中国电子技术标准化研究院和信通院的邀请参编SC42《可信赖人工智能标准化白皮书》与《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准体系。参与制定包括过程管理、模型管理、安全与风险管理、组织结构、系统与工具等5个能力标准,致力于帮助企业提高AI研发运营管理能力,提升AI模型治理能力,为AI大规模应用提供有效路径。参与制定的TC260《AI数据采集及标注安全规范》,聚焦AI数据采集及标注过程及过程中可能出现的安全隐患,提炼、梳理相关安全技术。
END