今天分享的是AI算力系列深度研究报告:《华为昇腾一体机深度研究:国产AI算力的星辰大海》。
(报告出品方:民生证券)
报告共计:28页
异腾 AI 一体机是国内 AI 软硬件技术的黄金交点,是以国产算力领军者华为异腾 AI 基础软硬件平台为基础,联合国内领先 AI厂商打造的先进生产力工具。2023 年 7 月6日,华为异腾在 WAIC 2023 会上联合四家伙伴共同发布异腾 AI大模型训推一体化解决方案,双方通过共同设计、联合开发、协同上市、持续迭代,为企业带来“开箱即用”的大模型一体化解决方案。异腾 A 基础软硬件平台包含华为 Atlas 系列硬件及伙伴自有品牌硬件、异构计算架构 CANN、全场景 AI框架异思 MindSpore、异腾应用使能 MindX、一站式开发平台 ModelArts 和统工具链 MindStudio 等。
国内各厂商陆续发布合作款昇腾一体机,应用范围由科研逐步扩展到 AI 全场景乃至垂类模型落地。2023 年 3 月,华为昇腾与旗下华鹏振宇打造了专为高校和 科研院所设计的 AI 训练开发一体机,奠定了将 AI 算力、AI 平台软件、AI 开发框 架、开发组件和存储高效融合的算力底座基础架构;2023 年 6 月,软通动力发布 训推一体化平台,支持用户一站式 AI 开发、深度适配不同 AI 应用场景;2023 年 8 月起云从科技、科大讯飞、智谱 AI 等国内领先 AI 大模型厂商合作款昇腾一体机 面世,昇腾一体机应用范围扩展到 AI 全场景;后续医渡科技、安恒信息等公司将 昇腾一体机用于自身垂类模型落地。昇腾一体机凭借其领先的软硬件基础设施性 能,以及昇腾的优秀工程化能力,正逐渐成为千行百业大模型产业化重要抓手。
1.1 异腾一体机瞄准大模型本地化部署蓝海市场
1.1.1 本地化部署市场需求清晰
大模型本地化部署市场需求主要有数据安全需求和技术需求两大类:
1)数据安全需求: 三星芯片代码泄露事件为重要标志,大模型或能够永久学习泄露数据内容,造成不可逆损失。据澎拜新闻援引韩国媒体《economist》报道,2023 年3 月,三星内部发生三起涉及 ChatGPT 误用与滥用案例,包括两起“设备信息泄露”和一起“会议内容泄露”,报道称半导体设备测量资料、产品良率等内容或已被存入 ChatGPT 学习资料库中。据 Cyberhaven 统计,员工直接发给 ChatGPT 的企业数据中,有 11%都是敏感数据。
2)技术需求:使用本地化部署的大模型,可以让机构和个人在这种不断变化的市场环境中积累经验,而单单使用 API 则无法做到这一点。据 willows.ai,对于 AI 原生应用,需要了解模型的内部状态、梯度和中间输出结果,使用基于 API的模型,会限制进一步进行实验和增强模型的可能性。此外,AI 工程化开发成本较高,中小厂商难以负担,使用打包工程化能力的 AI 一体机能够降低中小厂商进行 AI 创业的门槛。
1.1.2 海外巨头争先入局验证赛道景气度
英伟达发布 L40S 强势切入大模型本地化部署市场,验证赛道景气度。英伟达L40S 不支持 NVLink 协议,最多只能做到 8 卡并行,因此其主要目标客户是中小型企业的算法训练,与 A100 单卡相比,L40S 在AI 推理效能提高 20%,AI训练效率提高 70%,微调方面比 A100 快 50%。
戴尔集团与英伟达联合发布用于安全、本地化部署生成式 AI 的 ProjectHelix。据英伟达官网,Project Helix 将支持从基础设施配置、建模、训练、微调、应用开发和部署一直到部署推理和精简结果等整个生成式 AI 的生命周期。Project Helix 还包含 NVIDIA AI Enterprise 软件,为客户提供用于整个 AI 生命周期的工具。NVIDIA AI Enterprise 包含 100 多个框架、预训练模型和开发工具,例如用于构建主题鲜明、安全可靠的生成式 AI 聊天机器人的 NVIDIANeMom 大型语言模型框架与 NeMo Guardrails 软件。此外,Project Helix 还将安全和隐私功能内置在基础组件中,如 Secured Component Verification 等在本地保护数据可以降低固有风险,帮助企业满足监管要求。
1.2 国内 G 端率先落地,乐观预计市场规模超 4500 亿元
G 端数据安全最为迫切,推动大模型本地化部署需求率先落地。从数据的自主可控出发,党政军对数据安全需求强烈: 据维创,政府数据和军队国防机密若泄密极易造成重大负面影响,甚至危及国家安全和社会稳定。优刻得与沐曦、智谱华章共同在宁夏的开放平台上面向第一批用户也正是 G 端的航天医院、数字宁夏建设运营有限公司。首批落地的大模型本地部署一体机主要分为推理型 AI 一体机、训推一体型 AI 一体机以及编程一体机三类。
深圳龙知政政务垂直领域 GPT 大模型采用本地化服务、私有化部署的模式或在全国范围内形成标杆效应。据深圳龙华微信公众号,深圳龙知政政务垂直领域 GPT 大模型在通过私有化部署实现专属数据的安全隔离的基础上,实现多轮对话、信息溯源、深度学习等能力,能独立解决问题,提供辅助决策。据智慧城市行业资讯,“龙知政”GPT 大模型有三大优势:一是区属国企的本地化服务能力专业技术保障团队,自研技术支撑服务,操作流程更合规,二是通过大模型的私有化部署,确保政务数据隔离,使用更安全;三是针对政务服务需求定向优化,业务处理更高效准确,服务更贴心便捷。
从最优化角度计算市场规模,AI 一体机需求量等于接入 AI 的 PC 数量除以 AI 一体机最大并发数量。
从最优化角度计算市场规模,编程一体机需求量等于接入 AI 的 IT 部门 PC 数 量除以 AI 一体机最大并发数量。
1.3 市场格局:软硬件一体化能力或成为核心竞争力
异腾一体机需要 AI 厂商拥有强大的 A 领域软硬件一体化工程能力。据智讯,华为跟科大讯飞共同在异腾 AI 的软硬件平台和软件的支撑工具上,把高算力AI 芯片、高性能的算子库、多卡高速互联以及分布式存储结合起来,尤其是联合针对人工智能所需要的最重要的算子库进行甄别和打磨;此外,科大讯飞的训练和数据闭环全流程设计,以及训练和推理一体化设计的自研大模型训练平台支持 大规模的异构算力兼容、也支持混合云架构易拓展等特性也起到重要作用。
2.1 异腾 AI 芯片提供强大算力
基于达芬奇架构的两颗“芯”。2018 年 10 月,代号为 310 和910的异腾处理器系列产品推出。
1)异腾 31 处理器: 本质上是人工智能片上系统,主要应用于边缘计算产品和移动端设备等低功耗的领域。该芯片采用 12nm 制造工艺最大功耗仅为 8W,半精度 (FP16) 算力可达 8TFLOPS,整数精度(INT8) 算力可达 16TOPS,同时还集成了 16 通道全高清视频解码器。
2) 异腾 910 处理器该芯片计算密度大,领先全球,相比于同时代的英伟达 Tesla V100 GPU 还要高出一倍,其主要应用于云端,可以为深度学习的训练算法提供强大算力。在算力方面,异腾 910 表现非常出色,半精度 (FP16) 算力可达 320TFLOPS,整数精度(INT8)算力可达 640TOPS,功耗只有 310W,同时采用了 7nm 先进工艺进程,支持 128 通道全高清视频解码。从算力上看,异腾 910 和英伟达 A100 性能基本上相当。
2.2 异腾软件体系不断成熟
华为针对 AI 场景,设计了异构计算架构 CANN、AI计算框架 MindSpore 和第三方适配以及全流程开发工具链 MindStudio。本文主要关注 CANN、MindSpore 和MindStudio.
CANN 是一种异构计算架构,功能类似英伟达 CUDA。CANN 位于计算资源层和应用层之间,即芯片使能层,实现了在高性能计算硬件和 AI 应用之间架起座桥梁。部署在异腾服务器,包含统一的编程语言、统一网络构图接口、高性能计算引擎以及算子库。通过 AscendCL 对外提供 Device 管理、Context 管理Stream 管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等API,帮助开发者实现在 CANN 平台上进行深度学习推理计算、图像预处理、单算子加速计算。在离线推理场景和训练场景都有应用。
CANN 释放 A 硬件的极致性能,其高性能算子库和调优引擎,支撑快速部署神经网络。深度学习框架构建的模型是由一个个计算单元组成,这些计算单元被称为算子,对应着特定的计算逻辑,构成了加速神经网络的基础和核心。CANN支持超过 1400 个高性能算子,并提供 900 多种优选模型,并且覆盖了 80%的 DSL算子,其 DSL算子相比业界其他的产品,提升了 70%开发效率。正是这些丰富的算子,筑起了澎湃的算力源泉。此外,CANN 还提供了新一代智能调优工具 AOE,取代了繁琐的手动优化操作,降低了调优的门槛,并提高了调优的效率。以ResNet50 网络为例,使用 AOE 进行调优的效率比上一代工具提升了一倍以上,并且性能提升超过 100%。在 CANN 6.0 版本下,模型迁移成功率可达 90%。
CANN 在各领域深受认可。
1)在学术领域方面:2022 年 3 月,基于 CANN 的 AI 论文 PLGAN 强势上榜 2022 CVPR,5 月荣获“软件行业示范案例”,12 月,在第八届中国国际“互联网+”大学生创新创业大赛中,“基于昇腾算力及 CANN 的创新应用”突破“互联网+”国赛金奖。
2)在科研领域方面:分子动力学模拟 服务在 CANN 的助力下成功商用,AI 预测性能达到现有产品的 1.5+倍,可预测 规模较传统方法提升 10000+倍,为光伏材料、新能源电池、半导体材料研究带来 巨大的商业应用价值。此外,昇腾 AI 平台端到端使能蛋白质结构预测基于 CANN 进行多维度性能优化,使得 AI 预测效率较 Baseline 提升 2+倍,同时具备长序列 推理能力,2022 年底已支持 3800+长度的蛋白质氨基酸序列,达到业界领先水平。
MindSpore 是华为推出的支持云边端灵活部署的深度学习框架。人工智能领 域的发展,离不开深度学习框架。从 2012 年以前的 Torch、OpenNN 等原始深 度学习框架的发布,到后面形成了 TensorFlow 和 PyTorch 双头垄断,再到现在 中国国产框架有了一席之地,深度学习框架市场新品更新不断。2020 年,华为研 制的 MindSpore 正式开源,和 TensorFlow、PyTorch、飞桨等框架共同为人工 智能领域发力。
MindSpore 帮助开发者孵化出各种 AI 创新算法和应用,大幅提升效率。在 2018 年“华为全联接大会“上提出了人工智能面临的十大挑战,其中提到长部署 周期,高开发成本、高技术门槛等问题,为了应对这些问题,昇腾 MindSpore 专 注于实现开发友好、运行高效、全场景按需协同三大目标,以有效降低开发门槛。 一般而言,开发深度学习软件框架能够把程序员从烦琐细致的具体编程工作中解 放出来,从而将主要精力集中在人工智能算法的调优和改进上。
MindSpore 易用性和性能全国领先。根据 Omdia 发布的 2023 年《中国人 工智能框架市场调研报告》可知,有 40%的开发者将“易用性”作为选择框架的 首选因素,35%的开发者将”性能“作为选择框架的首选因素。其易用性是指产品被 用户使用时,能够被用户理解、学习、使用和吸引用户的能力,易用性是产品的 基本自然属性,标志着最终产的可用性和成熟度。MindSpore 在易学习低门槛、 易开发高效率、问题快速闭环三方面,提升易用性,并且成立了易用性 SIG。《中 国人工智能框架市场调研报告》中提到,在国外的端到端框架中,开发者认为 TensorFlow,PyTorch 的易用性更好,而本土框架昇思 MindSpore 和飞桨 PaddlePaddle 在易用性方面紧随其后。在端到端人工智能框架性能方面, MindSpore 以 13%的占比排名第三。
MindSpore 在全球 AI 框架使用率方面处于第一梯队。根据 Omdia 的调研 数据,在社区活跃度方面,MindSpore 以 11%的占比,排名第四;在中国开发者 心中,MindSpore 在国产框架中认知度排第一,全球框架中认知度排第三。在人 工智能框架使用率方面,TensorFlow、PyTorch、昇思 MindSpore 和飞桨合计 占了 86%的市场份额,其中,MindSpore 以 11%的占比在全球框架里排名第三, 逆势进入了 AI 框架的第一梯队。
MindSpore 在国内市场广受认可。昇思 MindSpore 与超过 200 所高校和科 研机构展开了创新合作,截至 2022 年,获得了超过 800 家企业的昇思技术认证, 涵盖了制造、金融、电信运营商等国家重要领域。此外,昇思 MindSpore 在 Gitee AI 开源项目中综合排名第一,软件下载速度排名第一,已经超过 370 万次下载总量。
提供全流程开发的工具链 MindStudio。开发者可以利用 MindStudio 提供 的简单易用的开发工具,高效地完成端到端开发,让开发者能够在安装部署、模型训练、模型推理、算子开发、应用开发、调试调优和应用部署全流程中一站式 完成,无需切换不同的工具,从而显著降低了开发门槛。MindStudio 支持训练、 推理场景。
1)训练场景:MindStudio(昇腾训练加速工具)利用独有的算法, 使训练速度提升 25%。
2)推理场景:MindStudio(昇腾模型压缩工具)利用独有的智能算法,加速推理进程,可大致提速 47%。
3.1 科大讯飞: 联手华为打造国产 AI“Wintel”联盟
与华为联合发布星火一体机,合作共建全国产化算力底座。华为与科大讯飞共同在异腾 AI 的软硬件平台和软件的支撑工具上,把高算力 AI 芯片、高性能的算子库、多卡高速互联以及分布式存储结合起来,尤其是联合针对人工智能所需要的最重要的算子库进行甄别和打磨,然后在此基础上,架构科大讯飞的训练和数据闭环全流程设计,以及训练和推理一体化设计的自研大模型训练平台,中间是支持大规模的异构算力兼容,也支持混合云架构易拓展。在单卡算力上,平台对标英伟达 A100,同时公司还正在与华为一道打造面向超大规模大模型训练的国产算力集群,形成集群化优势。
3.2 软通动力: 异腾AI 生态圈践行者
软通动力作为中国领先的软件与信息技术服务商,长期深耕数字创新服务+AI赛道,拥有完整的技术创新体系,并成立了专注于 AI领域的人工智能研究与创新中心(AIC),为客户的 AI 服务体系提供支撑。同时软通动力积极融入异腾 AI生态圈。AI 领域的重点产品: 软通动力打造出了具有端云协同、软硬一体、安全可信三大优势的 AI 端云一体化产品 (异腾版),该产品已与华为 Atlas 300I/V Pro 推理卡完成兼容性测试。此外,软通动力在多地的异腾 AI 生态创新中心,均扮演多样化算力能力服务商的角色,协助生态伙伴和用户,共同完成芯片适配、系统迁移、应用创新、人才培养等工作。同时,软通动力作为首批合作企业签约入驻北京异腾人工智能计算中心,并将参与到“人工智能安全可信护航计划”的理论研究、标准制定、评估评测等相关工作中,与异腾一道共同推进 AI 规模应用与产品创新。