春节档电影《你好,李焕英》大火,截至目前实时总票房已突破 50 亿。这部电影除了为亿万观众带去了欢声笑语外,正如这部电影的译名《HI,MOM》所表达,大家也被影片中真挚的母女情所打动,小编更是在电影院哭湿了口罩。
女儿贾晓玲(贾玲 饰)意外穿越时空,与年轻时的妈妈李焕英(张小斐 饰)相遇,弥补了自己想让母亲更加快乐幸福的遗憾。而在科技飞速发展的今天,借助技术手段,这样的遗憾与思念不用只停留在想象与艺术作品中,贾晓玲无需回过去,就能帮助妈妈李焕英穿越未来,在2021年“重聚”。
那么,这样“跨越时空”的对话真能实现?这些背后又有怎样的技术支撑?影片中最为精彩的父女画面,到底得有多像?今天小编就为大家,揭开这层“未来”技术的神秘面纱。
跨越时空的对话:
智能语音技术带李焕英穿越未来
在《你好,李焕英》中,贾晓玲穿越时空,与年轻的母亲来了一场超时空对话。现如今,除了电话、语音、视频等通讯方式能拉近地域上的距离,跨越时空的对话也从某种意义上成为现实。
2020 年,一部韩国的纪录片《I Met You》就记录了这样一个“重聚”场景。一位失去女儿的母亲在VR技术的支持下,与自己曾经逝去的女儿“重逢”。为了力求真实可靠的数据,技术人员引入了AI语音合成技术,让这个虚拟人物能够发出和女儿曾经一样的声音,并能与母亲进行互动与交流。
以上这样的定制化语音交互系统,究竟是如何实现的呢?以京东语音合成声音定制服务 & 闲聊为例。首先,我们可以把这个场景拆分语音合成声音定制(让虚拟人物能发出女儿曾经一样的声音)与开放场景对话能力(虚拟女儿能与母亲进行互动与交流)。
通常智能对话能力的实现,主要由语音交互系统三个主要流程组成:
语音识别:将原始的语音信号转换成文本信息(ASR),并将识别出来的文本信息转换为机器可以理解的语义表示(NLU)。简单来说,就是让机器可以听到人话;
自然语言理解:基于语义表示出来的对话的状态,对对话进行理解(DM),判断系统应该采取什么系统动作。这里的动作可以理解为,机器需要向你表达什么意思;
语音合成:将系统动作转变成自然语言文本(NLG),并将其变成语音输出给用户(TTS)。
上图所示为语音交互系统的整体流程,大家能更清晰地看到每个模块的输入输出,以及各模块之间的协作关系。其中,NLU 是非常重要的模块之一。NLU 的目标是将文本信息转换为可被机器处理的语义表示。其涵盖领域非常广泛,包括句子检测,分词,词性标注,句法分析,文本分类/聚类,文字角度,信息抽取/自动摘要,机器翻译,自动问答,文本生成等多个领域。
但和基于规则的 NLU 相比,人类对话与对话系统一个重要区别是它是否与现实相结合。基于京东NLP引擎能力、数据运算能力和千亿级互联网语料数据的支持,京东闲聊集成了较强的开放场景对话能力,分析并理解用户对于开放场景的提问,可通过结合外部知识库来弥补对话系统与人类之间背景知识差距的方法,生成流畅且个性化的回复,实现用户语音交流的需求。
然而,智能语音对话的“身体”有了,定制化声音的“灵魂”又该如何实现?
语音合成声音定制简单来看主要分为三步:上传指定内容语音文件;进行语音合成模型训练;使用模型进行语音合成。
从下图的 AI 的架构来理解,首先通过基础层语音信号的采集、降噪等预处理;其次在技术层通过对原始语音信号的特征进行抽取,由原始的语音得到语音向量。再使用声学模型和字典、语言模型对语音向量进行解码搜索;最后,对识别结果进行应用层的输出。
京东语音合成声音定制服务,就可基于深度学习技术,仅需上传少量音频数据,即可实现专属语音音色的合成,快速赋予产品个性化声音形象,在智能客服、有声阅读、有声导航等场景上应用普遍。
目前,京东的语音合成技术已经在京东读书,京东京鱼座 AI 音箱等产品,以及语音智能客服机器人等更加复杂的场景落地。小编一直记得这样一个事例中的一句话:“一下吃完一整瓶还能活着吗?”这是来自 2020 年初,一位用户在京东上咨询智能情感客服时留下了这样的话。
2020 年初,一位用户在京东购买药品在线咨询时触发了京东云智能情感客服的预警,缘由是内容含有极端情绪化的因素,预警发了危机专员的介入,结合该用户购买的药品剂量,推断其存在轻生倾向,通过危机专员妥善处理,避免了悲剧的发生。这是一场因科技完成的拯救行动,主导整个行动的是京东云的智能情感客服。作为业界首个大规模商用的情感机器人,这支科技“生命通道”也避免了多次悲剧的发生,用科技的温暖挽救了一个个鲜活的生命和家庭。
到底跟谁最像?
FastReID揭秘贾玲与父母的相似度
(小编友情提醒:以下内容涉及剧透,请“谨慎”观看哟)
电影《你好,李焕英》中贾晓玲穿越到了 1981 年,在妈妈还是个少女的年代里,贾晓玲本想凭借自己的努力让妈妈改变命运,希望帮助妈妈嫁给体面人,过上体面又骄傲的生活。但最终,李焕英因为对女儿的爱,依然选择了与贾晓玲的父亲结婚,未来仍能成为贾晓玲的妈妈。
不过,大家确实都没有想到,影片最大的亮点莫过于贾晓玲的爸爸扮演者乔杉的出现。相信坐在电影院里看《你好,李焕英》的观众朋友们都发出了“哇”的惊叹,小编当时也跟着笑弯了腰,心里 OS:“咋能这么像哈哈哈,太会选演员了吧!”
尽管乔杉在整部影片里就像最后彩蛋一样只出现了很短的镜头,但是大家还是能够感受到他和贾玲两个人之间眉眼间的神似感觉,特别是眯着眼笑的时候。但回归现实,贾玲到底更像爸爸还是更像妈妈呢?
小编求助了京东 AI 研究院通用目标重识别开源库FastReID的研发小哥哥,想从技术严谨的角度来对比贾玲与父母的相似度,返回结果如下:
从返回的计算结果看来,贾玲和妈妈的相似度为 63%,跟爸爸的相似度为 15%,果然贾玲跟妈妈还是要更像一些!
这时你或许想问,跟乔杉的相似度...哦不,这个相似度的结果到底是如何计算的?这背后的技术还是要归功于 FastReID 强大的特征分析能力。
FastReID 训练框架为相似度计算模型的快速训练和部署提供了强大后盾,模型整体的高效实现能够帮助我们在收集的数据集上,进行快速的训练和调参,并获得一个可以直接部署的模型。通过后续的自动部署管线,可以将模型部署到一个 web service 上。这时,我们只需将贾玲与其父母的人物图片送到训练好的网络当中,对人物特征进行提取和分析。获取人物特征之后,通过特征之前的余弦相似度,就可以得知贾玲到底像谁了。
至于贾玲与乔杉的相似度嘛,可以给大家留个悬念,感兴趣的朋友可以在我们 FastReID 开源库上部署模型进行计算。
*GitHub链接:
https://github.com/JDAI-CV/fast-reid
那么,上述结果的“幕后功臣” FastReID 究竟是啥?FastReID 是京东 AI 研究院,于 2020 年 6 月发布的基于 PyTorch 的通用目标重识别(ReID)开源库。
现如今,ReID(通用目标重识别)技术往往被应用到不同规模的特定目标轨迹分析上,这就会导致系统处理的数据规模快速成倍的增长,模型的推理速度变慢,最终使得 ReID 算法的性能不能被完全发挥。此外,ReID 领域中的学术研究与工程模型部署存在着较大的差距,代码对齐问题使得学术研究成果很难直接转化为可落地的产品,限制其在大规模商业化场景中的应用。
基于此,参照 Detectron2 的整体概念和设计哲学,FastReID 设计成了一个高度模块化和可拓展的架构,从而可以让研究人员快速的实现新的 idea;更重要的是,该框架友好的管理系统配置和工程部署函数可以让工程师快速的部署它。FastReID 开源库可针对 ReID 任务提供完整的工具箱,包括模型训练、模型评估、模型部署等模块,并且实现了在多个任务中性能领先的模型。
此外,FastReID 还广泛应用于行人/车辆重识别、野生动物保护、拍照购物、无人超市等应用中。其中包括许多人们日常接触的应用,比如搜索电视剧中感兴趣的演员的视频、从监控视频中搜索商场中走失的孩子、从城市监控系统中搜索可疑车辆的视频、商品溯源防伪等,甚至在生态环境保护领域中还可用户东北虎保护等野生濒危动物的保护的应用。
结语
无论是完成自己心愿的贾晓玲,还是默默守护的李焕英,孝心可鉴,母爱伟大。今天我们用 AI 技术把“李焕英”带回 2021 感受科技温度,而京东科技在坚持科技引领,助力全球产业数字化升级,并推动实体经济高质量发展的使命的同时,始终坚信科技力量能够塑造更温暖、更美好的世界!
最后,在这个特殊的日子里,祝全国姐妹们节日快乐,永远爱你们!❤️