作者 | 唐小引
出品 | CSDN(ID:CSDNnews)
从 2009 年 11 月 11 日,到 2019 年 11 月 11 日,从 2009 年的 5000 万成交量、2018 年 2135 亿成交量,到今天 1 小时 03 分 59 秒成交额便已突破 1000 亿并实现全天成交额 2684 亿,节节攀升的阿里双十一,刚好迎来了第十一个狂欢购物节。
在阿里芝麻开门 102 问里记载着这样两问:
1. 为什么会诞生双 11?
2. 为什么说双 11 是阿里的大「团建」?
其一,今天回过头来看阿里历史,从初创于湖畔花园让天下没有难做的生意到今天构建阿里巴巴数字经济体,阿里巴巴 20 年的每一个重要节点都分外传奇,双十一也不例外。「102 问」里是这样说道:「2009 年,淘宝商城初创不久,逍遥子和团队一起讨论,琢磨着做一个网上的购物节,为商城造势……11 月没有大的节日。一群“无知者无畏”的阿里人就选了 11 月 11 日,筹备了第一届双 11,结果一炮而红。」
其二,阿里人将双 11 视为 Team Building,逍遥子说「打仗是最好的团建。没有参加过双 11 的叫同事,参加过双 11 的叫战友」,这一点已成阿里人深刻于骨的精神,在这全球嗨购双十一之时,当笔者走进阿里西溪园区里,光芒四射的灯光之下,数不清的穿着天猫红 T 的阿里同学的脸上,洋溢着激情的笑容,每突破一个标志性的数字,定胜鼓铿锵响起,十分具有感染力。
在今年双十一当夜,阿里与我们分享了一个很典型的数据 ——「2019 天猫双 11 交易峰值创下新纪录,达到 54.4 万笔/秒,是 2009 年第一次双 11 的 1360 倍」。
十一年倏忽而逝,数据的变化背后是技术迅猛的更新迭代,以 11 年作为一个暂时复盘,我们能够明显地发现在双 11 的快速发展下所促使的阿里技术体系变化。譬如拿电商架构来说,从五彩石项目开始,一路自集中式架构、分布式架构、单元粒度的分布式架构体系演进,同时伴随支付架构体系的升级、自研 OceanBase、All in 无线的一系列演进;对混合云架构进行升级,逐步采用阿里云资源支撑大促;为了 100% 的稳定而实现全链路压测;运用大数据和人工智能开启个性化推荐;为了解决双 11 后客服人力弹性问题而重构阿里智能客服技术等等。
今年双十一,当高并发、维稳已经不再那么让阿里人「如临大敌」之时,阿里技术体系又发生了哪些重要变化?本文或许可以让你一窥。
许多人都知道阿里云是在一片对云计算的质疑声中发展起来的,而其所经历过的同样的还有「阿里会将全部业务都放到阿里云公共云上吗?」的怀疑。
我们在双 11 得到了最直观的印证。
在平稳度过 2019 天猫双 11 流量峰值后,阿里巴巴正式宣布,其核心系统已 100% 跑在阿里云公共云上。国内唯一自研的飞天云操作系统,成功扛住全球最大规模的流量洪峰,由此,阿里巴巴成为全球首个将核心交易系统 100% 运行在公共云上的大型互联网公司。
在双十一现场,阿里巴巴集团 CTO 兼阿里云智能总裁行癫全方位总结并分享了当双十一已经走过 11 年,是如何在用户及商家完全无感知的情况下,将数以十万计的物理服务器从线下数据中心迁移到了云上。
行癫说道:「过去的一天 20 多个小时里,是阿里技术上最经受考验的一次,我们从去年开始,决定将整个阿里巴巴经济体的核心系统全部上阿里云。在中国只有阿里云是完全从头研发的一朵云,从十年前每一行代码都是自己写,它有一个特别的名字叫做“飞天操作系统”。」
紧接着,行癫讲道:「很多人问我,核心系统上云究竟意味着什么?以前的云都是非核心负载放在云上,现在阿里巴巴最核心的系统放在云上。我们的云将原来专用的技术变为公有云,大家都可以来享受普惠服务。阿里云承载着阿里巴巴自己 100% 的核心系统是全球第一个做到的,未来,阿里所有的系统都将在阿里云飞天操作系统上,这在技术上是一个非常大的进步与挑战,上云后性能有着非常大的提高。」
那么,从技术上讲,为什么阿里巴巴能够将此次双 11 核心系统 100% 上云?行癫分享了阿里云智能完全自研的四种「武器」:
在核心虚拟机系统上,自主研发神龙架构,用自研服务器来做虚拟化。一般的服务器随着压力增长,最终负载能力会慢慢下降,但神龙服务器压力越大,输出也非常线性;
自研云原生数据库 —— OceanBase 和 PolarDB,前者早已在双 11 大促中证明了自己,并刚刚在 TPC-C 测试中拿下全球第一,后者也广泛应用在此次双 11 上,每秒峰值远远超于 Oracle 这样的传统数据库;
计算与存储进行分离。行癫表示,现在阿里巴巴存储是有一个地方专门存放数据,数据都是从远端存取的,所以存储可以很方便地扩容;
为什么能够实现远端存取,甚至于比本地读写磁盘更快?行癫分享了第四个核心技术——RDMA 网络,阿里可以说是全球第一个大规模做 RDMA 网络的公司。
行癫表示,数据处理今年创了一个新高,2017 年当天处理了 300PB 的数据,2018 年处理了 600PB 的数据,今年要处理 970P 左右的数据,这是非常大的量,没有一个先进的系统是撑不住的。
其次,是实时,这次双 11 大促,在秒杀、会场等方面都是个性化、千人千面,数据不仅大,而且要做到非常实时。到目前为止,菜鸟物流系统已经产生了超过 10 亿笔的物流单,这个数据还在快速上升,这些都需要依靠阿里云背后大量的计算能力。
今年的数据,除了批处理之外,还有流处理,就是实时处理所有数据,每分、每秒都在变,它并不是从数据库里面统计出来的,而是每生成一笔订单,系统自动一层层把数据汇集上来。今年这个系统每秒能处理 25 亿笔记录,这是流式的系统。
这么多服务器,要把它全部管理起来,除了飞天系统之外,还要管理所有的消息流转,所以阿里自己开发了一个叫做 MQ 的消息系统,这也是全球目前最大的一个消息系统。
行癫总结道:「今天,从飞天系统、大数据处理平台到智能化应用,这些技术叠加起来打造了一个新的分布式的基于云的平台,才使得阿里整个经济体所有核心应用都能够跑在上面。从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA 网络,全部是阿里自研的。我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,这是这次双 11 跟往年最大不一样的地方。」
一直以来,技术圈都非常盛行着「One more thing」,在双十一演讲的最后,行癫还谈到了前不久发布的含光 800,并带来了一个颇让人兴奋的消息:明年双 11 将大规模应用平头哥自研的 AI 芯片上。
阿里小蜜的诞生与双十一紧密相关。达摩院资深总监、阿里小蜜团队负责人空无曾撰文分享过在双十一之中关于客服的痛点:「云计算解决了计算的可伸缩性,通过削峰填谷最大幅度地降低了成本,但是客服这种人力资源的弹性如何解决?」
对此,阿里巴巴智能客服经历了长达 11 年的演进,从起于淘宝的问答机器人,2012 年面向支付领域服务的「智能小宝」机器人上线,2015 年阿里首款智能助理产品「阿里小蜜」,其所提供的不仅是单纯的客服功能,更是以智能+人工的模式为用户提供智能导购、服务、助理的对话式体验,并于 2016 年首次走上双 11 主战场。到去年双十一,阿里小蜜已经承接了淘宝、天猫平台 98% 的在线服务需求。到今年,现在阿里客服服务量绝大多数都是通过阿里小蜜来承载。
在阿里西溪园区里,笔者见到了这位「小蜜之父」,听他谈起了小蜜几年来的技术演进历程。
达摩院资深总监、阿里小蜜团队负责人空无(作者摄于阿里西溪园区)
空无对 CSDN(ID:CSDNnews)表示,「小蜜的演进,完全是基于技术的演进发展的,跟很多产品是不一样的。很多产品是定义出来,但小蜜完全是由技术驱动的,算法能力会决定你产品的 0 和 1,因为如果技术不过关,业务方都不会让我们上线。为什么从 16、17 年我们开始将小蜜的产品能力在业务中应用,主要是因为在这两年里人工智能、深度学习技术取得了关键突破。」
今年在阿里小蜜上尤其不同的点是,不再仅仅关注在线服务覆盖率,对此,空无说道:「用机器完全取代人并不是我们的方向,在客服领域,98% 已经是个极限了,如果再去提升,有可能会受限于技术能力,同时也无法达到预期的用户体验。」今年空无带领小蜜团队将客服与营销方向相结合,帮助商家不仅解决海量的客服问题,更进一步提升转化率。比如颇为新颖的「直播小蜜」,采用自然语言理解和 KBQA 基于知识图谱问答等技术,能够精确地解析直播间内对于商品和主播的多种复杂表达和问法,由此实现多对一沟通的快速响应,较大比例地提升直播间的客户问题解决率。
在阿里双十一全球化之中,语言成为需要解决的首要问题。跨境电商翻译需求量大,同时,在不同场景中会出现非常规的翻译任务,由此,阿里巴巴构建起国际化多语言技术与业务基础设施,建立阿里翻译平台,由此来支撑整个集团的国际化业务开展。
达摩院资深算法专家、达摩院自然语言理解团队成员骆卫华(花名闻彰)表示:「阿里翻译平台的愿景是让商业没有语言障碍,提供大规模多语言语料平台、智能机器翻译引擎、人机协作平台。截至目前已实现日均 10 亿次的调用,日峰值处理 1 亿+商品,拥有数十亿双语语料、上千亿单语语料,支持 20+ 种语言,60+ 个语言方向。」
具备能力如下:
翻译:商品翻译(标题、详情、评论)、文档翻译(Word、PDF)、语音翻译、图片翻译、多媒体翻译(视频翻译)、地理信息翻译(高德、菜鸟)、实时沟通。
多语言处理:语种识别、自动预料获取、全球化知识库、众包平台、质量自动检测、多语言测试平台、多语言搜索方案。
闻彰表示,电商本身就是非常复杂的场景,电商翻译信息作为交易凭证对质量要求非常高,即「准合同」级翻译。对此,闻彰从算法、数据、工程三个维度分享了阿里翻译的技术特色,分别为:
算法:更深层神经网络模型;融合知识的模型:通过各种内部数据建设,构建知识库;多语言合一模型;高容错多模态翻译;
数据:QE 大脑;多语言知识库自动构建;人机协同;
工程:高性能解码;超大规模语料离线高速训练;CPU 解码;移动端解码;私有化定制。