数字智能时代到来,AI作为核心驱动力量将为各行各业带来巨大转变。
在医疗行业,应用认知计算技术AI能为人们的健康保驾护航,将人工智能应用到医院平台,能从各种渠道分析访问者的健康状况并提供保健相关的洞察力,并与访问者进行双向互动。对于患者而言,AI可以帮助自己预知发病时间,并及时寻求有效的解决方案;
在金融行业,可以利用AI技术进行智能风投,量化交易;
在教育行业,人工智能可以自主学习大量而深厚的专业知识,开发者能通过人工智能对这些大量非结构化数据的理解、推理和学习,提供个性化的教育体验。
支撑AI应用需要完善的基础架构,在AI解决方案部署过程中,从底层算力平台到上层资源管理软件,整个基础架构需要集成CPU、GPU、存储、网络等多种硬件基础设施,其中GPU是部署过程中的关键,因为GPU加速计算是近年来集群建设的主流方案,可以提供卓越的应用程序性能,将应用程序计算密集部分的工作负载转移到GPU,同时仍由CPU运行其余程序代码,可显著提高应用程序的运行速度,建设一个GPU高性能计算集群可以提供一个GPU加速的人工智能实验平台,促进企业人工智能、大数据、深度学习、机器学习等算法方面的研究和应用。
此外,还需要pytorch、Tensorflow等AI框架,AI框架是为了更轻松、高效地研究和应用深度学习,目前主流的深度学习框架都很好的支持GPU加速,框架可专门为深度神经网络(DNN)训练所需的计算提供支持高度优化GPU的代码NVIDIA的框架经过调优和测试,可提供非常出色的GPU性能,借助这些框架,用户可以通过简单的命令行或Python等脚本语言接口访问代码。许多功能强大的DNN都可通过这些框架来训练和部署,而无需编写任何GPU或复杂的编译代码。再通过docker容器技术,调度器等软件进行统一的计算资源与数据库管理和调度,可从GPU加速带来的训练速度提高中受益。
接下来,从机房基础设施方面聊聊,如何打好“基建”。
机房建设是部署AI应用的基础,也是整个基础架构中最底层的部分,合理的机房建设可以满足未来计算资源的扩容,可以提高计算资源的利用率,节省空间与能耗,机房基础设施涉及服务器机柜、KVM切换器、UPS不间断电源、精密空调、防静电地板,新风系统、隔音的处理等等,机房基础建设要考虑未来算力资源的扩充,提前根据算力平台的功耗考虑供电系统,根据设备的数量考虑机房空间。
机房基础建设分为传统机房和模块化机房,传统机房一般采用工业空调对机房整体空间制冷的方式,或者是采用精密空调架空地板下送风方式制冷方式,模块化机房与传统机房最大的区别在于能够最大限度的利用制冷功率为设备散热。因为其采用封闭冷通道方式,冷气与热气隔离,整体提高制冷效率;空调与IT机柜并排间隔摆放,采用空调水平送风直接对机柜吹冷风,满足其散热需求,为客户节约大量运营成本。
其次,模块化机房能够快速部署。因其出厂前完成机柜的预安装,现场只需接通外部电源,固定机柜等简单操作即可使用,例如,解决方案提供商思腾合力位于包头的云计算中心即采用模块化机房,总面积2400平米,地板承重800KG/㎡,抗震烈度等级8级,电力方面稀土变+沼潭变,双市电保障,发电机冗余,满负荷下可运行12小时,并与加油站签署供油合同,UPS采用采用2N冗余UPS供电,满载后备120分钟,空调方面采用N+1列间精密空调,运营安全方面采用双冗余华为6680防火墙,开启IPS/IDS/防病毒功能,采用7x24小时不间断全方位机房监控,采用大数据动态感知系统,实时分析预警。
在对机房的一系列需求评估、选址落地等过程中,也会同步考量硬件的部署。
硬件资源层构成复杂,部署AI应用需要涉及算力、网络、存储等方面,标准的集群构建需要管理节点、计算节点、存储节点和网络节点。一般来说,管理节点会采用普通2U机架式服务器,顾名思义,它是承担集群中管理的角色,计算节点即我们提供核心算力的部分,通常采用GPU服务器,主流的有NVIDIA A30 Tensor Core GPU、NVIDIA A40 Tensor Core GPU等。
下面以笔者熟悉的GPU卡和服务器为例,带大家了解一下常见的计算与管理节点的参数与功能配置有哪些。
与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有
NVIDIA A40是NVIDIA Ampere 架构计算卡,速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能,A40采用第二代 RT Core 的吞吐量是上一代的 2 倍,并能同时运行光线追踪和着色或降噪功能,从而大幅加快工作负载的运行速度,A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的训练吞吐量达到上一代的 5 倍,而且无需更改代码即可加速 AI 和数据科学模型的训练。从硬件上支持结构稀疏度使推理吞吐量提升一倍;另外,A40具有超高速 GDDR6 显存,单卡48GB,还可通过 NVLink® 扩展到高达96 GB,为数据科学家、工程师和创意专业人士提供所需的大容量显存,让他们能够处理大型数据集以及数据科学和模拟等工作负载,PCI Express 第 4 代将 PCIe 第 3 代的带宽增加了一倍,因而提升了从 CPU 内存传输数据的速度,能更好地支持 AI、数据科学和 3D 设计等数据密集型任务,更快的 PCIe 性能还能加速 GPU 直接显存访问 (DMA) 传输,A40 向后兼容 PCI Express 第 3 代,这也提供了部署灵活性。
思腾合力GPU服务器从2U2卡,2U4卡到4U4卡,4U8卡,4U10卡均有覆盖,像IW4222-8GR这块8卡GPU服务器,就是我们构建集群经常用到的一款服务器,它支持2颗第三代Intel® Xeon® Icelake系列可扩展处理器,TDP 270W,提供强大的X86处理平台针对推理及训练应用,带宽翻倍的PCIe Gen4平台上可支持8块双宽GPU卡,专为高密度GPU计算提供多方位的性能支持,支持高速网络,存储和其他IO扩展,8个U.2硬盘。为高端计算平台提供高速传输和数据存储能力。
同时,进一步优化运维效率,拥有专业管理平台能够实现对市面主流的各类GPU实现识别,监控,风扇调速支持,故障报警等功能;存储节点即AI应用中存放数据的地方,AI应用对于数据量的需求非常庞大,而且对于读写性能、带宽都要求很高,所以对存储的容量、性能及安全性都有要求,存储可以采用分布式存储系统,即数据分布到各个存储节点上,并行读写,提供存储性能,同时可以采用不同的冗余方式,比如双副本、多副本、纠删码冗余技术等等,保证数据安全性,这块思腾合力具备4U24盘位、4U36盘位存储服务器,也有自己的分布式存储管理软件,可提供集性能、容量、安全性与一体的分布式存储系统;网络节点有3套:管理网络、计算网络和IPMI网络,这里管理网络一般采用千兆以太网,计算网络一般采用万兆光纤网络或者InfiniBand 网络,IPMI网络做远程管理使用。
有了刚刚介绍的硬件资源层,构建好集群硬件后,接下来的一步是平台软件的部署。
我们在开篇讲到部署AI应用需要pytorch、Tensorflow等AI框架,如果没有平台软件统一管理,就需要使用者自己安装应用环境,包括CUDA、AI框架、docker等,再进行环境的调试,在AI部署中,软件环境调试非常耗费时间,并且不是所有使用者都熟悉各种软件环境,此外,没有软件平台做统一管理,会造成资源分配不均,容易产生计算资源的浪费,比如大多数高校发现GPU计算资源被初学者占用,往往导致真正科研计算任务匮乏计算资源,基于Docker环境的计算管理环境常常发生计算资源抢占现象,让管理者应接不暇各种投诉。
在这方面,思腾合力有自主开发的SCM人工智能云平台软件,集成了主流的AI框架,可实现计算资源池化,按需分配给一个或多个用户使用。SCM云平台可对GPU高性能计算资源进行统一的管理和调度,有效满足用户在深度学习等科研及教学方面的需求,用户可以快速在平台上进行数据处理、算法设计、模型训练、模型验证、模型部署等工作,而不用关心底层复杂的集群构建与调度机制以及深度学习框架的安装部署、性能调优等问题,在充分简化深度学习训练方面工作的同时有效提高资源利用率。
说到这里,我们用来部署AI应用的全套装备就齐全了,下面以实际案例出发,看看一个AI应用是如何落地的。
案例:山东省人工智能研究院AI实验室建设,以下简称“智能院”,定位于山东省人工智能领域创新型科研机构,致力于打造引领全省人工智能科学研究的高地,高端人工智能专业人才的摇篮,成果转化的基地,人工智能领域的重要智库以及国际交流与合作的重要枢纽;
背景:智能院紧密围绕山东省人工智能实际需求,落实省委“现代产业集群+人工智能”的战略部署,聚焦人工智能重大科学前沿问题,以突破人工智能基础机理、模型和算法瓶颈为重点,以攻克新一代人工智能共性关键技术为基础,支撑智能医疗、智能交通、智慧海洋、智能制造等重大行业应用。建立人工智能超算平台,内部及外部提供算力。
智能院的需求及痛点有:
1、模型和算法出现算力瓶颈,训练时间周期长;
2、难分配:存在的所有资源都是以物理形式存在,没有办法很好的进行合理资源分配,导致科学研究存在一定问题。低效率:正在运行中的项目作业只能靠人为干预检查是否正常运行,费时费力。不灵活:大量的算力资源无法通过软件进行灵活调配,无法支撑算力需求极高的任务;
3、难定位:在多个线程的项目同时运行时,一旦有其中之一出错,难以精准定位报错任务。
4、难管理:没有集群管理软件进行统一的资源管理与监控,无法避免资源的浪费以及算力不足的问题。
解决方案:从底层硬件算力平台和上层软件管理平台的统一部署,1节点管理服务器IW2211-2GR,9节点思腾合力IW4213-4G计算服务器,2节点思腾36盘位存储服务器,计算网络采用100G InfiniBand组网,软件管理平台使用思腾合力SCM人工智能云平台软件。
亮点:
1、通过统一AI平台可进行多用户管理,用户分组管理,不同用户的权限管理等多维度管理模式;
2、提交作业支持Novnc远端桌面,可满足图形化使用习惯的部分用户;
3、平台可通过jupyter进行深度学习模型的训练,代码调试,调参等等,还可进行打包容器保存自己的镜像环境;
4、平台具有使用时长统计,可查看每个用户的使用时长。
部署效果:
通过计算平台的建设,满足内外部的开展机器学习、计算机视觉、自然语言处理、知识表达与推理等关键技术研究,支撑智能医疗、智能家居、智能交通等行业应用研究,通过算力服务器解决模型和算法的算力需求瓶颈问题,用户可在SCM软件平台上直接划分计算资源,存储资源,分配给多个用户使用,SCM集成了主流的AI框架,以及镜像仓库,方便用户做AI相关的科研工作,减少调试环境的时间,间接提升科研效率数10倍。
人工智能基础架构的构建需要多重因素协调配合,对于一些非计算机专业人员,基础设施的开发、搭建、调试往往要耗费数月时间,期间透明性低,测试频繁,效率低下,严重限制人工智能技术在行业中的应用,比如Tensorflow、Caffe 等众多的计算框架以及 CNN、RNN 等复杂的网络模型,即便是资深工程师也需要花费大量的时间成本学习和应用,主流计算框架采用 CPU+GPU 的异构计算平台,其管理和调度融合了高性能计算、大数据和云计算等多领域技术,实现难度较大,诸如思腾合力这类解决方案提供者,可以帮助大家完成从基础设施到云管理平台的构建,通过其研发的SCM人工智能云平台软件,面向大规模异构计算基础设施管理,解决上述问题。
这篇文章就到这里,希望各位开发者、技术负责人、业务管理者们能够找到适合自身的解决方案,实现深度学习计算资源管理、调度、应用的自动化,充分提升计算基础设施资源利用效率,降低部署AI应用的总体拥有成本,提升AI研发创新效率!
想了解更多关于 NVIDIA A40 的产品信息,点击“阅读原文”注册下载产品白皮书!
申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,19年企业级科技媒体工作经验,长期专注企业数字化、产业智能化、ICT基础设施、企服软件和汽车科技内容的观察和思考。