作者|小葳
【划重点】
Amazon SageMaker为机器学习开发者提供了一套设施完备的“中央厨房”,开发者无需自己搭建厨房,只要自带食材(训练数据)就可以开始做菜(训练模型)了。
透过Amazon SageMaker,可以一瞥机器学习平台的几个发展趋势:机器学习平台的开放性日益重要、MLOps提上日程以及机器学习安全。
在国内AI中台混战的格局中,Amazon SageMaker进入中国市场将与整个产业内的AI玩家合作共赢。
美军最小作战单位由二战的军进化到后来的营,再到阿富汗战争时,几人或十几人的极小班排就可以挺进前方一线,就是因为后方有非常强大的导弹指挥系统。这可能是对“大中台,小前台”最通俗的比喻。
中台是国内科技企业提出的概念,国外Gartner提出的“Packaged Business Capability”,即封装的业务能力,可以看作更为具象的建议。随着AI应用在企业研发中的占比逐渐升高,AI中台在国内异常火热,诸多互联网大厂都先后发布了各自的AI中台。
AI 中台是用来构建大规模智能服务的基础设施,是一套完整的人工智能模型全生命周期管理平台和服务体系,提供模型设计训练、模型/算法库、复用标注管理、模型监控服务等能力支持。AI中台旨在让企业业务前台可以短兵作战、小步快跑、降低试错成本,更便捷地借助AI加速业务创新。
其实,AI中台要做的事,业内已经有一个成熟的先例——Amazon SageMaker。2020 年 4 月30日,Amazon SageMaker正式进入中国市场,在由光环新网运营的 AWS 中国(北京)区域和由西云数据运营的 AWS 中国(宁夏)区域正式开放。近日,AWS首席云计算企业战略顾问张侠博士与国内媒体来了一场深度沟通。
关于Amazon SageMaker的基础功能,业内已经有很多讨论。「智能进化论」重点关注Amazon SageMaker究竟有何过人之处?在国内AI中台混战的格局下,Amazon SageMaker进入中国市场,是狼来了还是将加速产业落地?
2015年,负责人工智能和机器学习的AWS副总裁Swami Sivasubramanian在亚马逊工作满10周年,喜迎一个特殊的长达4周的年假。当Swami从西雅图回到印度老家度假时,却因时差而失眠。
在那些无眠的夜里,Swami研究人工智能发展,并意识到机器学习(Machine Learning,ML)与企业应用之间的巨大鸿沟。“机器学习不是每个企业或机构都能掌握的,算法模型的构建很难,而我们想让企业更容易地使用机器学习。” Swami在采访中表示。
抛开AI、中台这类很大且较难标准定义的概念,AWS更倾向于技术方案的落地。Amazon SageMaker的定位是AWS的机器学习平台服务。在 Gartner 发布的 2020 年云上 AI 开发者服务魔力象限中,AWS 被评为领导者,Amazon SageMaker功不可没。在机器学习方面,目前全球云上85%的Tensorflow的工作负载跑在AWS上面。自2017年11月发布以来,Amazon SageMaker已经被全球数万企业选择来运行机器学习负载,AWS上机器学习客户数量超过其他云厂商总和的两倍。
Amazon SageMaker 是一项完全托管的服务,它的核心用户是具备一定机器学习开发能力的算法工程师和数据科学家,Amazon SageMaker可以帮助他们在云上快速构建、训练和部署模型。
在AWS机器学习服务整体框架中,Amazon SageMaker处在中间层。底层提供了最广泛的基础设施,包括主流机器学习框架、开源人工神经网络库Keras、Linux镜像Amazon Linux AMI等底层工具以及各类计算能力。上层则是面向特定业务领域的人工智能服务,都经过亚马逊商业体系的成功验证。比如智能音箱Alexa的内核——亚马逊人机对话引擎Lex,亚马逊电商业务的智能推荐能力输出产品——Personalize、金融交易反欺诈工具Amazon Fraud Detector等。
让算法团队的智慧、时间和精力用在刀刃上是Amazon SageMaker的目的。因为机器学习的工作流程异常复杂、耗时,这些流程包括数据准备、选择、优化机器学习框架和算法、设置训练环境、训练并调优模型、在部署和监控模型等等。
如果把算法工程师和数据科学家比作大厨,那么要做出一道美味的菜肴(一个能在企业生存环境中应用的算法模型),他们90%以上的时间都要花在“捡柴火、搭灶台、铸铁锅”这些自身并不擅长的工程搭建环节。
Amazon SageMaker相当于为开发者提供了一套完备的“中央厨房”,内置了丰富的各类厨具、设备和食材半成品(机器学习服务和预置的算法),开发者无需自己搭建厨房,只要自带食材(训练数据)就可以做菜(训练模型)了。
可以说,Amazon SageMaker在机器学习服务的完整性、连续性方面已经成为业界的范例。Amazon SageMaker的功能组件覆盖了机器学习全部工作流程,大大降低了模型构建和训练的难度,并加快了模型训练过程。
其中,面向机器学习的集成开发环境(IDE)Amazon SageMaker Studio,为所有Amazon SageMaker功能和整个机器学习工作流提供了统一的工作界面。弹性笔记本Amazon SageMaker Notebooks可一键启用Jupyter Notebook,方便开发者之间的共享协作。自动构建模型组件Amazon SageMaker Autopilot可以让没有机器学习经验的小白用户轻松生成仅基于数据的模型,经验丰富的开发者则可以用它快速开发基础模型。此外,Amazon SageMaker还提供实验管理、调试和分析模型、检测和纠正概念漂移(concept drift)等丰富组件。
机器学习模型训练极为繁复、昂贵以及耗时,已经成为AI大规模落地的一大阻碍。这一点,全球顶级的AI企业都意识到了。
2018年,Google的李飞飞团队推出Cloud AutoML平台,百度则推出EasyDL平台,这些平台都提供零门槛AI开发能力,可以解决机器学习领域一些最常见、最基本的场景需求。也就是说,一行代码都不会编写的门外汉也可以通过上传数据训练出一个AI模型,可以说是将AI开放平台平民化了。
然而,具体到企业级生产级别的机器学习模型,必然还是需要一定的机器学习编程能力。不然没法解释不少企业百万年薪都难求一个高端AI人才。而且,目前算法工程师和数据科学家的界限正在变得越来越模糊,很多数据大牛、DBA们都在努力学习Python,说明机器学习编程能力越来越重要了。
尽管国内AI开放平台、AI中台不断涌现,但是在全球范围内,Amazon SageMaker依然是商业化最成熟的机器学习平台服务。分析Amazon SageMaker的差异化优势,也映射出机器学习平台的几大发展趋势:
趋势一、机器学习平台的开放性,包括对机器学习框架、对功能组件的集成性、对生态系统、对开源社区各个维度的开放性。
**对机器学习框架的开放性。**Amazon SageMaker对包括TensorFlow、PyTorch、Apache MXNet在内的主流框架进行了深度优化。比如,在256GPUs下,对TensorFlow的扩展效率可以做到90%,远高于开源平台的65%。即使是早前的框架Caffe,或者企业客户自己开发的框架,只要通过自带容器的方式都可以在Amazon SageMaker中使用。
**对集成性的开放。**虽然Amazon SageMaker功能强大而深入,但模块化的设计思路却让企业有极大的灵活选择空间。企业可以按需使用其中的部分功能,比如,A企业选择在Amazon SageMaker训练好模型,在边缘节点进行推理应用。B企业为了节省算力成本,可以将在本地训练好的模型拿到Amazon SageMaker上做推理或实验、监控等等。
**对生态系统的开放性。**一个机器学习平台能否具有生命力,关键在生态系统。在国外,AWS MarketPlace为SageMaker提供了一个模型和算法市场,数百个合作伙伴已经上传了自研的AI模型和算法,供客户选择。在国内市场,AWS已经发展了德勤、中科创达、伊克罗德等头部合作伙伴,加速Amazon SageMaker在企业级市场的落地。
**对开源社区的开放性。**考虑到目前很多机器学习负载已经容器化,Amazon SageMaker为Kubernetes提供了运算符,并保持对众多开源社区组件的开放性。此外,AWS还开源了SageMaker的部分实现,联合facebook推出TorchServe——业内第一个针对PyTorch框架的model server。
趋势二、MLOps提上日程
随着机器学习的发展,企业落地场景日益增多,如何把机器学习的工作负载整合到企业自动化的工作流里,成为亟待解决的问题。
机器学习的模型构建属于开发,模型训练属于离线负载,模型实时推理属于在线业务,并且机器学习相关的环境对算力资源、发布迭代流程、环境监控等方面与普通应用程序或大数据程序非常不同,这一套流程目前在很多企业里,甚至是技术驱动的互联网公司里都处在一个早期阶段,逐渐成为机器学习落地、规模化、生产化的阻力。
Amazon SageMaker已经将模型构建、训练调优、部署管理过程中的大量人工环节转变为自动化,同时提供了丰富的接口便于二次开发。而且,其可以让企业内部的运维平台团队、业务应用开发团队与机器学习算法团队在工作流程上实现松耦合,大大加速了机器学习负载的迭代和落地进程。
趋势三、机器学习安全
目前大部分企业还在学习如何高效开发、使用机器学习,安全问题可以说没有被广泛注意到。一些常见的训练操作,比如不同项目组的模型训练数据都放在一台本地机器上,数据之间不做隔离,存在相当大的安全风险。
Amazon SageMaker为每个客户提供训练所需的专用资源,在模型训练的全流程提供安全防护。比如Amazon SageMaker Notebooks可以将编程和训练分开,不仅带来基础技术资源的节省,还实现了数据的安全隔离。
“在全球AWS目前有24个区域,中国北京区域和宁夏区域是作为全球第五个和第六个落地Amazon SageMaker的区域。” 张侠透露,AWS对中国市场重视的背后,是中国AI领域的飞速发展的大背景。
张侠强调,AWS跟中国AI产业内的众多玩家不是竞争关系,而是共赢合作关系。作为一个技术赋能的机器学习平台,Amazon SageMaker已经与AI产业内从初创企业到大型企业在内的生态伙伴建立广泛合作,目的是一起帮助更多中国企业将机器学习应用到生产中。
由于Amazon SageMaker是面向专业的算法工程师,对于一些本身不具备AI团队和能力的企业,合作伙伴成为打通AI落地最后一公里的关键一环。在Amazon SageMaker技术平台的基础上,合作伙伴可以为企业量身打造解决业务真正问题的AI解决方案。
作为AWS的核心级咨询合作伙伴 (APN Premier Consulting Partner),伊克罗德中国区副总裁桂梓捷向媒体表示:“我们已经在运用Amazon SageMaker平台加速企业导入行业AI解决方案,如标签标注、文本分析、语意理解、预测分类、推荐系统与诈欺侦测等,针对客户实际遇到的商业问题,量身打造真正解决问题的端到端AI应用。”
大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。为了提升用户体验,大宇无限想在短视频APP中实现视频内容的个性化推荐,公司开发团队却面临AI模型训练的巨大挑战。大宇无限技术副总裁刘克东表示:“Amazon SageMaker使我们无需构建基础设施,算法工程师只需准备数据,仅用了三个月的时间我们就从零完成了整个系统的建设并承受了实际用户访问的压力,而且Amazon SageMaker为我们节省了70%的训练成本。”
放眼产业格局,国内推出AI中台的企业越来越多。AWS做Amazon SageMaker的战略思路,无疑对于现在的AI中台玩家提供了一份有价值的参考。
END
本文为「智能进化论」原创作品,个人微信abcde363636