简介: 2014 年,一个名为“iDST”的神秘部门的诞生开启了阿里的人工智能新征程,5 年后,初长成的达摩院成为了阿里 AI 崛起的代表性力量。如今,阿里已跻身全球人工智能技术研发的第一梯队,成为时下这 AI 技术洪流中不可或缺的力量。这份出彩的“成绩单”背后,是阿里 AI 团队过去 5 年的筹谋、坚守与突破。在杭州召开的阿里巴巴云栖大会上,AI 悄然占据 C 位,新任“阿里云智能计算平台掌门人”贾扬清、阿里巴巴达摩院机器智能实验室负责人金榕、阿里巴巴达摩院语音实验室负责人鄢志杰等三十几位达摩院技术专家在大会第二天发布了阿里在 AI 领域的最新研究进展和成果。
阿里的 AI 能力再上新台阶。在云栖大会第二天,新任“阿里云智能计算平台掌门人”、阿里巴巴集团副总裁、阿里云智能计算平台事业部总裁贾扬清正式对外发布飞天 AI 平台。
飞天 AI 平台是贾扬清入职阿里巴巴后首次发布的机器智能产品。采访中,贾扬清向 AI 前线展示了飞天 AI 平台的“硬”实力。
我们先听一下贾扬清的定义:“这次发布的飞天 AI 平台,不仅是阿里 AI 整体能力的结构化展示,更是一个开发者更易触达的 AI 平台,开发者在飞天 AI 平台上,可按需调用平台的能力,无论是软硬件一体的编程环境,还是云边端一体的高性能训练和推理引擎;无论是阿里云已经开源的能力,还是成熟的商业版服务。”贾扬清表示,“这些都会让开发者拥有更多自主可控的技术路线、同时拥有更加强大的 AI 能力”。
据了解,飞天 AI 平台主要包含两层:高性能训练与推理引擎框架,多模态算法开发与部署平台。
框架层面:
飞天 AI 平台包含 Alink(FlinkML)、MNN(轻量级深度学习端侧推理引擎)、XDL(面向高维稀疏数据场景的深度学习开源框架)、SQLFLOW、PAI TensorFlow(阿里云优化的商业版 TensorFlow)、PAI Blade(编译优化)、Elastic DL 等;
性能层面:
AI 开发与部署平台层面:飞天 AI 平台是一个自带最佳实践的交互式 AI 开发平台,他将 AI 编程系统和大数据编程系统有机结合,在开发者实际操作过程中,不同岗位、不同技术背景的工程师之间往往有设计理念及技术实现细节上的差异,随着业务复杂度、技术复杂度的增加,这种差异带来的影响被进一步放大。飞天 AI 平台经过多年的沉淀、打磨,在阿里巴巴集团及阿里云业务的实践中,积累了一整套“历经实战演练”的数据处理、特征工程、算法、评测组件,并以模块化的方式通过统一的 AI 开发环境提供标准服务,解决实际业务问题。
贾扬清表示,与目前市场上的 AI 平台相比,阿里飞天 AI 平台最大的不同点在于它是阿里自己在用的 AI 平台,如电商搜索、个性化推荐、广告、智能语音客服、无人驾驶、城市大脑等,都是在飞天 AI 平台上开发出来的,这也是飞天 AI 平台“学以致用”的最佳体现。
此外,飞天 AI 平台与它的“孪生兄弟”飞天大数据平台紧密结合,形成了飞天 AI 平台的一大特色。大家都知道大数据技术是 AI 发展的重要基础,而在今年 9 月,飞天大数据平台的自研大数据计算平台 MaxCompute 和开源大数据计算平台 E-MapReduce 分别在 TPCx-BB 和 TPC-DS,首次将数据集规模拓展至 100PB,并在 30TB 数据规模排名中双获第一。放眼市场,能够将大数据和 AI 技术完整结合,并取得如此成绩的平台可能只有阿里一家。在贾扬清看来,在 AI 更广泛落地的大背景下,单纯用一个深度学习平台或框架做计算是不够的,一定要跟大数据平台紧密结合。
贾扬清强调,作为一个平台,飞天 AI 平台所提供的能力是让开发者能够利用这些能力进行应用升级,平台关注的应该是给开发者、给上面的应用提供和创造更多的可能性。
接下来,飞天 AI 平台和飞天大数据平台、达摩院将构建起数据、算法、计算的 AI 生态闭环,更好地为开发者服务,为客户创造价值。
在今年的云栖大会上,AI 悄然占据了 C 位,多项关键性创新技术成果的发布代表着阿里技术长征又迈向了一个新的阶段。
阿里对于 AI 的最早布局,要追溯到 2014 年,一个神秘部门的诞生。
彼时,在硅谷上市活动刚结束不久,阿里便宣布在硅谷建立 iDST(institute of Data Science&Technologies,数据科学与技术研究院),自那以后,马云对外的演讲里便高频出现“DT”这个词,在 IT 概念还未褪热之时,马云提出的“DT”也着实时髦。
iDST 自诞生起就萦绕几分神秘色彩,它甚少在出现在媒体报道中,鲜有人知道,这个单从名字上看研究数据科学的部门到底在做些什么。它的目标在那时也显得格外宏大,确立阿里巴巴集团在未来数十年的技术领先地位。
iDST 的奠基团队里,大咖云集。现任阿里巴巴达摩院高级研究员,机器智能实验室负责人金榕和蚂蚁金服副总裁兼首席数据科学家漆远是 iDST 的两位创始人,二人都是应王坚之邀加入阿里。
“阿里巴巴是坐在金山上啃馒头,阿里拥有庞大的数据金山,而数据的真正价值却并没有发挥出来”,王坚拿出了当年彭蕾游说他的理由招徕漆远,令王坚吃惊的是,“他真的非常果断就来了”。之后,华先胜、周靖人、任小枫等顶尖科学家陆续加入 iDST。
“阿里 AI 战略发展过程中,最大的转折点是被团队里很多前辈称之为‘上山下乡’的运动”,阿里巴巴达摩院语音实验室负责人鄢志杰回忆他在 iDST 时的日子,“我其实加入三个月后,就开始拥抱变化了,我被‘下放’到业务团队,到了阿里云 iDST”。
当时 iDST 的团队成员多为科学家,他们重视基础理论研究却缺乏业务和实战经验,常被业务部门批评“不懂业务”。于是,为弥合这两种矛盾,iDST 的团队兵分三路“下乡”,深入到业务团队之中:金榕带领一拨人加入了淘宝和天猫的搜索部,漆远和几位同事去了蚂蚁金服,原先做语音的团队留在了阿里云。
经过“上山下乡”运动后,iDST 从直属集团变成了阿里云下属的一个部门,看似力量削弱了不少,但实际上通过这三路”尖兵“,阿里的 AI 技术能力在各个核心的业务场景中全面开花。金榕去淘宝、天猫搜索部后做出了拍立淘,还拿到了阿里最高荣誉“集团 CEO 奖”,漆远去了蚂蚁金服后,也收获了 6 项阿里巴巴集团算法大奖。
如今,iDST 升级为达摩院并成了阿里的核心技术中枢,但达摩院做技术布局与研发的思路仍与 iDST 一脉相承,并在原基础上做了延伸和发展。
2017 年,达摩院宣布成立时,马云对它寄予厚望,他希望即便有一天阿里没了但达摩院还在,达摩院必须活得比阿里巴巴更长。两年过去了,达摩院逐渐成为阿里前沿技术实力尤其是 AI 实力上的代言者。
目前,达摩院关注机器智能、数据计算、机器人、金融科技以及 X 实验室五大领域,设置有 14 个实验室。其中,机器智能实验室是阿里做 AI 研发最核心的部门,是阿里 AI 力量的汇聚地,其下设语音、视觉智能、语言技术、决策智能、城市大脑五个实验室和一个智能客服团队,这些基本涵盖了阿里在 AI 技术方向上的核心布局。机器智能实验室的负责人金榕向 AI 前线表示,阿里将技术划分成三个层面:基础技术、业务技术、应用技术,并按照这个逻辑选定了上述研究方向。
在传承 iDST 的基础上,机器智能实验室的定位也发生了一些变化,其在为当下的 AI 技术做布局的同时,也在为未来技术来做一些基础性的研究,金榕表示。
阿里巴巴达摩院语音实验室负责人鄢志杰回忆,伴随着 iDST 的架构设立,阿里开始对以语音交互等技术进入严肃投入期。发展到一定阶段和规模的阿里需要做一些技术储备,从这个角度上看,iDST 的布局是有一定前瞻性的,到现在的达摩院,也一直贯彻同样的思路。
又一年云栖至,这一年来,机器智能实验室有哪些技术创新和进展?金榕向 AI 前线介绍道:
在自然语言处理方面,最大的进步是深度语言模型,如今自然语言处理最大的挑战是如何让将人类语言变成数学能够表达的东西,过去语言模型只是比较简单的统计,现在的深度语言模型可以做到把语言很好地映射到数学空间上,这是一个很大的进步。深度语言模型另一个比较成功的应用是在问答上,又叫做机器阅读理解,它跟一般的问答不同在于,过去 AI 问答一般需要事先设定一些 QA Pair,所有问题都需要判断它跟 QA Pair 中的哪个问题比较像,再返回对应的回答。现在的机器阅读理解可以直接给机器输入一篇很长的文章或多篇文章,模型可以从文章中自动搜寻跟问题有关的答案。
计算机视觉方面:过去阿里最大的一项突破就是超大规模图像识别,目前阿里超大规模图像识别技术已经可以做到几千万 SKU,所有物品在阿里商品库均能做到 87% 左右的识别率,其中的核心是如何有效进行大规模训练和优化。金榕希望未来这个 SKU 还能再推到几个亿。
语音方面:目前阿里的语音合成技术已经能做到跟真人非常接近的程度,并被收录到了 MIT 2019 十大突破性技术中,与谷歌、亚马逊同属行业前列,其技术实现上借鉴了机器翻译的一些方法。此外,阿里的语音合成技术不仅能在 Profile 上实现很好的效果,研发团队还花了大量时间精力使模型的计算成本降低了一个数量级,从而很好地弥合了研究与商业化应用之间的鸿沟。
以下为达摩院两周年的成绩单:
鄢志杰表示,目前在阿里集团内部的电话客服、政务、智慧地铁等多业务场景都用到了语音交互技术能力。近几年阿里在语音交互领域取得的重大技术成果主要体现在两方面,一是,语音识别的声学模型在交互效果上更加自然。二是,去年发布的业界最小的语音模组真正做到了简单“复制”与机器交互的能力。在本次云栖大会上,这个模组又有了最新的升级:体积更小、功耗更低、更便宜、更易被集成。这里的“被集成”指阿里的语音技术可以帮助其他在语音交互领域探索的客户做业务升级。
“在我们团队,禁止讲‘赋能’”。
赋能无疑是当下科技互联网圈常用的高频热词之一,阿里为何禁提“赋能”?鄢志杰继续解释道,很多传统企业在垂直领域深耕多年,专业能力扎实,阿里的技术并非为其赋能,而是帮助客户产生价值,阿里技术的价值在于将门槛降低、让更多人使用,从而产生广泛的社会价值。
现在,达摩院更多扮演了阿里巴巴 AI 技术中台的角色,其核心能力通过云来输出,当小前台需要语音、图像等技术的时候,技术中台会为其提供源源不断的技术服务和支持。
曾经在较长的时间里,很少有人会觉得阿里是一家技术公司。“百度的技术、腾讯的应用、阿里的产品”,业界常认为在 BAT 中,阿里是技术实力最弱的,片面印象的形成除了阿里强大的电商基因,还因为英语老师出身的马云不懂技术,这在技术公司中是少见的,不论是李彦宏、马化腾还是张一鸣、雷军、周鸿祎、丁磊等人皆是程序员出身。
两年前,在达摩院成立时,马云谈到这点时说道,“我没觉得不懂技术多丢人,不懂技术装得懂技术才丢人。我确实不懂技术,但我们尊重技术、欣赏技术、信仰技术”。
今天,可能已经很少有人否认,不懂技术的马云带出了一家技术最强大的公司之一。甚至有观点认为阿里在技术上的成功恰恰是因为马云“不懂技术”。
2018 年 10 月 31 日,在退休之前,马云最后一次以董事局主席的身份致信股东,他表示,9 年前阿里已经转型为一家技术公司,已在大数据、云计算、人工智能、物联网上做了全面布局和准备。
“阿里在商业上的成功掩盖了它技术上的实力和投入“,阿里巴巴首席技术官行癫(张建锋)曾感慨,言语之间夹杂着些许“委屈”的情绪。
普华永道发布的《2018 全球创新企业 1000 强》报告中显示,阿里巴巴的研发支出连续三年居中国上市企业之首。2018 年,阿里研发支出达 247 亿元,是腾讯的 1.3 倍、百度的 1.8 倍、携程的 2.7 倍、京东的 4 倍,其最近两年的研发费用占总收入的比例高达 15.65%。
伴随着人工智能热潮的来临,BAT 纷纷拥抱 AI。在 AI 的布局上,三家也各有千秋。
百度对 AI 的布局是最早的,阿里次之,腾讯最晚。2013 年 1 月,百度宣布成立深度学习研究院(IDL),李彦宏亲自担任院长,同年 4 月,百度深度学习研究中心在美国成立。为布局 AI,百度先后招徕了吴恩达、陆奇等 AI 大神加盟。在百度的 AI 布局中,百度大脑、自动驾驶、百度智能云是重点押注的方向,百度大脑整合了深度学习、语音技术、视觉技术、自然语言处理、知识图谱等核心技术,目前已经升级到 5.0,且由百度大脑核心能力支持的 Apollo 和 DuerOS 两大 AI 开放平台的生态体系渐丰。在自动驾驶方面,百度在该领域的专利申请量居国内第一。
相较 BA,腾讯在布局 AI 上有些后知后觉。在 2017 年 11 月的腾讯全球合作伙伴上,腾讯 CEO 任宇昕将“AI in all”作为腾讯发展 AI 的愿景。在去年 9 月进行的第三次组织架构调整中,云和 AI 被腾讯视为拥抱“产业互联网”的关键武器。在内部,腾讯的 AI 力量较为分散,主要有腾讯 AI Lab、腾讯优图、WechatAI 三大实验室,专注计算机视觉、语音和语义理解、自然语言处理和机器学习等方向,因为存在赛马机制,三大实验室关注的研究方向会有重合之处。近两年,腾讯一直倡导“科技向善”,试图将其打造成腾讯 AI 具有辨识度的标签。目前,在计算机视觉领域,腾讯 AI 优势明显,其在医疗、金融、零售方面的应用较强。
依托电商场景和数据金矿优势,阿里在智能客服、语言 / 语义理解、自然语言处理、计算机视觉等 AI 研究方向上具有显著优势。阿里最早做 AI 时主要是业务驱动,完全从算法角度做,现在越来越完善,从算法到框架到硬件,最近两年,在软件之外,阿里 AI 还在向硬件发力。去年 9 月 19 日,在 2018 云栖大会上,阿里巴巴 CTO、达摩院院长行癫宣布成立平头哥半导体公司。成立近一年来,平头哥先后发布了芯片玄铁 910 和一站式芯片设计平台 “无剑”。
在 9 月 25 日云栖大会现场,阿里巴巴 CTO 行癫(张建锋)发布了由平头哥研发的阿里巴巴第一颗“大芯片”—含光 800,据称它是全球最高性能的 AI 推理芯片,在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。随着含光 800 的发布,平头哥端云一体全栈产品系列初步成型,涵盖处理器 IP、一站式芯片设计平台和 AI 芯片,实现了芯片设计链路的全覆盖。
“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走”。 张建锋表示,阿里巴巴未来将用“软件的优势”、“互联网公司的速度”做芯片,目标是转型为一家软硬件协同一体化的科技公司。芯片或许会成为阿里布局 AI 生态具有辨识度的一个标签。
在技术公司转型的过程中,阿里强大的电商基因与技术战略相互融合,倒是形成了一种饶有特色的新特点。场景能够与技术深度融合是阿里发展 AI 技术最大的优势和发展策略。纵观如今的 AI 创业公司发展现状,90% 的 AI 创业公司烧钱太厉害却赚不到钱,根源在于找不到合适的落地场景、天然具有大规模应用场景、业务倒逼技术发展的阿里则很好地规避了这个问题。
达摩院成立伊始,马云就曾直截了当地告诉王坚,这 1000 亿启动资金给你就是创业启动资金,未来是要靠自己挣钱的,90% 以上研究的东西,不能只在实验室里面,必须在市场上。马云认为,只有让企业家和科学家完美结合,这个世界才有未来。
“阿里有一大特色,叫做科学家下田野,科学家也会去见客户”。
鄢志杰打趣地说道,这个特色在 iDST“上山下乡”运动时已经体现得淋漓尽致。他认为,商业价值倒逼需求也是阿里 AI 的与众不同之处,“AI 技术怎样上云,如何帮助阿里云生态的伙伴创作价值,在一定程度上,这并不是一个主动选择,而是一种被迫选择,是阿里云天然使命的倒推。除了刷榜和纯技术因素以外,一项技术能够给社会产生什么样的价值,阿里云在这方面的思考比别人早一点。现在看到,别人也都走上这条路了。在听到来自市场、商业环境前线的‘炮火’的时候,阿里希望去做一些真正对 AI 产业化产生影响力的产品”。
拥抱 AI 已经成了全球科技公司的主流战略,但不同的公司有各自的技术路线,贾扬清觉得阿里最大的优势是学以致用,与很多公司通过算法需求往下设计系统、搭建架构不同,阿里是一个囊括底层架构、硬件等的更加全栈的环境,上面的业务需求、应用很容易通过融进业务中接受到大规模的锤炼并找到接下来的演进方向。
阿里 AI 全景图
一般而言,衡量和评判一家公司的 AI 实力,需要从三个维度做考量:系统能力、算法能力、应用能力。系统能力主要考虑 AI 的基础架构、软件协同设计,可从整个开发者平台的实力、落地场景中体现出来;阿里的算法能力主要体现在达摩院上,如在图像识别方向的算法研究上,阿里已取得显著成果。应用能力的目标是希望让每一个人都非常自然地使用 AI,谈到该能力,贾扬清认为,目前整个业界在 AI 应用层面还处于早期阶段,应用能力的提升是最终让“AI 拥有无限可能”的必经之路,这也是阿里推出飞天 AI 平台的目标所在。
今天,阿里巴巴首次公布了其人工智能调用规模:每天调用超 1 万亿次,服务全球 10 亿人,日处理图像 10 亿张、视频 120 万小时、语音 55 万小时及自然语言 5 千亿句。
一年前,金榕曾在接受采访时表示希望能够帮助阿里巴巴从一个技术的跟随者变成领导者,并在一些重要技术上取得领先。现在再来看这个目标,金榕欣喜地看到阿里 AI 发生了两个很重要的变化:已经不少团队在顺着这个目标为核心去努力,且有很多团队不仅在考虑解决当下单纯的业务问题,而着眼到更远处希望解决未来根本性的问题。
“我认为这两件事能够让阿里在未来做到 Leader。做 Leader 一定是一个坚持的过程”。