作者 | 马超
责编 | 胡巍巍
出品 | CSDN(ID:CSDNnews)
3月26日,《人民日报》开设"新基建 新机遇"专栏,其中头条文章《新基建拓展新空间》,聚焦华为云助力滁州产业升级、助力江苏工业互联网发展示范区建设等城市案例,树立"新基建"的标杆示范。
而在云计算这个新基建领域,华为最近也是动作频频。近日在华为开发者大会2020(Cloud)上,MindSpore首席科学家、IEEE Fellow陈雷教授宣布华为全场景AI计算框架MindSpore在码云正式开源(开源地址:https://gitee.com/mindspore),并正式登陆华为云。可以说只有将AI算力上云才能与行业应用场景全面无缝对接,产生出核效应,创造出新基建的最大价值。
但是让AI算力上云又是如此之难,因为近年来整个AI界都特别流行被业界戏称为“大力出奇迹”的发展模式,目前主流的图像处理及NLP方面的AI模型参数,动辙达到百亿级的规模。就目前的情况来看,从OPEN AI的那个能自动续写《权利的游戏》小说的GPT-2到谷歌的XLNET、T5,人工智能的模型迭代速度越来越快,但训练成本也随之水涨船高,主流模型的训练成本都要高达数十万人民币之巨。
甚至有学者指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。”AI这种高成本高投入的发展趋势让一般的创业公司离主流的AI的前沿越来越远,如果没有雄厚的资金实力是不可能搭建这种级别的AI训练平台。不过这也从另一个角度推进了AI与云计算的结合,将 AI上云,使企业按需付费,降低使用门槛,才能使AI促进行业创新发展,真正释放新基建的巨大能量。
ModelArts Pro人工智能开发套件的集大成者
MindSpore发布的同时,华为云正式发布全球首款企业级AI应用开发专业套件ModelArts Pro,这是一款令人尖叫的产品,如果将ModelArts Pro比作一个AI工厂,可以通过工作流的方式开发出行业AI 应用,看到发布会后,笔者做为华为云的MVP第一时间到华为云的官网(https://www.huaweicloud.com/product/modelarts/pro.html)来申请内测的资格,估计本周末可以实际体验。
为了能给读者第一手的零距离体验,笔者选择了去年底发布的ModelArts 2.0做为试用对象,在华为云上(https://www.huaweicloud.com/product/modelarts.html)完成注册后,就可以免费得到10小时的GPU训练时长,免费体验在线Notebook的开发环境,笔者亲身使用的感受是ModelArts是一个相当开放的平台,目前还是集成华为的深度学习框架Moxing framework,预计ModelArts Pro将会与MindSpore相结合。
ModelArts是一站式AI开发管理平台,以全流程的极简和自动化升级已有的AI开发模式,让数据准备、算法开发、模型训练、模型管理、推理部署、边缘设备纳管、以及围绕AI的代码和资源的分享,全链条产生质的飞越。
借助“AI增强AI”的理念,ModelArts平台同样提供了很多“智能”的能力,将“自动标注”、“模型自动调优”等能力以自动学习的高度自动化、流程化形式提供给用户,进一步减低用户的技术门槛和落地难度,为用户快速实践人工智能扫清了障碍,其中一个特性是支持零代码开发主要优势就是支持零代码开发,简单操作训练出自己的模型。
用户完全可以不写一行代码,比如在实际建模过程中,用户只需要在图像中选择含有车辆的区域,就能完成如车辆识别的模型训练,可以说大大降低了AI的使用门槛。
图源见水印
但是做出ModelArts这样的产品是如此之难,必须掌握从芯片、训练集群到训练框架以及云计算等多方面的技术栈,才能达到这样的产品水准。只有掌握全链条的AI场景才能真正做好AI云,否则建造成本就会失控,但全栈AI真正实践起来困难重重,比如谷歌虽有AI芯片和训练框架,但是云计算实力不足,而亚马逊云实力虽独步天下,但是芯片和训练框架方面又较弱,可以说华为在全栈AI方面在世界范围都是首屈一指的,下面笔者带大家来盘点一下华为云集齐AI全技术栈龙珠的历程。
华为集龙珠
AI芯片昇腾910
我们知道之前人工智能方面主要依赖英伟达的GPU来进行模型的推理与训练,而在去年底,华为发布了 地表“算力最强”的AI处理器昇腾910芯片,性能完全碾压了谷歌的V3以及英伟达的T100等AI芯片,一举打破了英伟达的垄断。
昇腾910半精度 (FP16)算力达到256 Tera-FLOPS,而对比竞品谷歌的V3只有90T,英伟达T100也只有128T。由于深度学习过程中计算核心与内存的交互带宽是最大瓶颈,所以昇腾910对此进行了专门的优化,其最大的亮点是使用自研的达芬奇架构,其核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等组成,3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作。
同时,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。可谓专为AI而生,能够帮助企业用更低的成本获取高性能算力,加速业务创新。
AI训练集群Atlas 900
昇腾910发布三周后,华为在2019年全连接大会上,又发布了Atlas 900 AI训练集群。Atlas 900 AI集群基于昇腾910 AI处理器搭建,通过华为通信库和作业调度平台,整合HCCS、 PCIe 4.0和100G RoCE三种高速接口,充分释放昇腾910 AI处理器的强大性能。
华为联合上海天文台与SKA合作。运用Atlas 900和华为云昇腾集群服务的超强算力,约10秒钟即可完成对20万颗星体的搜索、定位与识别。而在之前这个任务是需要科学家半年的时间才能完成。
在实地测试当中,Atlas 900速度比处于第二位的平台快了五分之一,用华为副董事长胡厚崑的话说“这就好比是在一场短跑里,第1名跑完了全程,然后上了个厕所再回来时第二名才终于气喘吁吁的到达。”
AI训练框架MindSpore
不过目前AI方面顶会的论文基本要求使用Tensor Flow或者Pytorch编写代码。其霸主地位短期内很难撼动,不过国内厂商的AI框架也取得了不少突破性的进展,比如百度就在2016年开源了其深度学习计算框架飞浆平台,日前旷世也推出了自主开源AI框架Brain++。
正如我们前文所介绍华为AI计算框架MindSpore。据目前华为发布的消息称。MindSpore主要的特性是其布署场景较为丰富,主要端、边缘和云的协同,通过实现AI算法即代码,使开发态变得更加友好,显著减少模型开发时间,降低模型开发门槛。通过MindSpore自身的技术创新及MindSpore与华为昇腾AI处理器的协同优化,实现了运行态的高效,大大提高了计算性能。
后记
AI云是AI全栈的核心,是AI全场景的重要一环。计算力是所有AI应用的基础。全栈全场景的优势是可以进行端到端的性能优化。提供端到端的方案利于企业一站式建立AI能力,不用自己东拼西凑。AI可以提供更高的性能和更低的成本,使AI真正落地,赋能更多的企业。相信本次华为发布的MindSpore和ModelArt Pro,将充分发挥云计算这项新基建的巨大能量,协助我国的经济产业走出阴霾,迎来春天。
【End】
「AI大师课」是CSDN发起的“百万人学AI”倡议下的重要组成部分,4月份AI大师课以线上技术峰会的形式推出,来自微软、硅谷TigerGraph、北邮等产学界大咖就图计算+机器学习,语音技术、新基建+AI、AI+医疗等主题展开分享,扫描下方二维码免费报名,限时再送299元「2020AI开发者万人大会」门票一张。
推荐阅读
你点的每一个在看,我认真当成了喜欢
点击阅读原文,参与报名!