大规模并行AI训练系统 Colossal-AI 十四问

近日,受CSDN副总裁SoftwareTeacher老师的邀请,我们针对大家对于Colossal-AI所关心的问题进行了解答。

大规模并行AI训练系统Colossal-AI通过高效多维并行、大规模优化库、自适应任务调度、消除冗余内存等方式,旨在打造一个高效的分布式AI系统,作为深度学习框架的内核,帮助用户便捷实现最大化提升AI部署效率,同时最小化部署成本。

开源地址:

https://github.com/hpcaitech/ColossalAI

1. 你们的目标用户是谁? 你们要解决的最大痛点是什么?

总的来说,所有与计算和AI相关的行业和企业都是我们的潜在客户,因此企业级人工智能是一个价值万亿美元的巨大市场。例如,

        a. AI芯片厂商,如英伟达、壁仞、寒武纪、 SiFive、Graphcore等。 AI 芯片厂商是算力的直接提供者。芯片的硬件架构各不相同,为了适应现有的AI 框架,必 须在硬件和底层软件的架构上设计与现有的AI框架适配的软件,例如英伟达GPU 的CUDA、AMD 的OpenCL 等。潞晨可帮助构建芯片厂商底层软件开发和并行方案优化;还可帮助构建硬件与顶层各类机器学习框架之间的生态系统。

        b. 计算厂商,如谷歌、微软、华为等。 计算厂商是算法和模型的开发者,也是算力的需求者。计算厂商需要节省训练模型的成本、 提高训练的效率,因此需要高效并行训练方案。其中大型计算厂商可使用潞晨方案,快速低成本训练超大AI模型,作为业务后台核心和影响力宣传;中小型计算厂商则可通过采用潞晨方案,节省聘请专业AI分布式相关专业人员的人工和时间成本。

        c. 云厂商,如阿里云、腾讯云、微软Azure、AWS 等。 云厂商是算力的间接提供者。为了吸引更多的使用者,云厂商希望提高服务的质量和种类, 其中就包含AI 模型训练。而高效的大规模分布式训练服务作为未来AI 计算的刚需,必然是云厂商需要提供的服务之一,与潞晨合作能够以较低的成本提供优质的并行训练服务。潞晨可以帮助云厂商或计算中心将高效地“硬件设备”转换成“有效算力”。

        除此之外,我们的潜在客户还包括其他有计算需求的行业和企业

        医疗:传统医疗企业(智慧医院)、面向医疗行业的计算解决方案提供商(深睿医疗、商汤科技、旷视科技等)

        安保:海康威视、大华股份、依图科技等

        工业:中石油、中石化、三一重工等

        互联网:搜索引擎、社交媒体、电商等

        计算中心:“东数西算”算力枢纽、超级计算机等 其他:自动驾驶、隐私计算、区块链、AI制药等

我们要解决的最大痛点是解放AI生产力,即降低AI模型分布式部署门槛,提升部署效率,最小化部署成本。 具体来说,有以下几个方面:

         a. 当前AI大模型的趋势,使得对于算力的需求急速扩大。例如,从2018年的BERT到2021年的Switch Transformer,2-3年间就有上千倍的增长。而用8块英伟达V100训练一个2020年发布的GPT-3模型需要36 年的时间,在生产环境中是无法接受的。

        b. 算力供不应求,导致市场急需提高算力使用效率的并行计算方案。

            i. 硬件算力增长远远跟不上模型对算力的需求。GPU 的算力每年提升约1.5 倍,而模型参数量级每年增长约10 倍。

            ii. 仅靠堆GPU 不足以填补供给缺口。一方面,市场“缺芯”现象表明芯片的制造能力跟不上算力的需求;另一方面,现有的并行计算技术并不能充分发挥GPU 集群的算力。

        c. 大厂开始在并行计算方面进行试验,但并未出现通用、高效的方案。

            i. 绝大多数计算厂商直接使用TensorFlow/PyTorch中内置的分布式训练方法,痛点包括:

                1). 仅支持三维并行,效率不高,GPU 算力的峰值利用率最高只能达到30%;

                2). 模型分布式部署非常困难,企业需要雇佣专门的AI 分布式工程师进行部署,人力成本和时间成本过高。

             ii. 大厂采用自研的分布式算法或者方案的痛点包括:

                1). 通用性差:大厂的训练方案一般基于自身的硬件,是定制化、与硬件直接整合的解决方案。

                2). 问题太复杂导致大厂无法长期投资:并行效率的提高涉及到硬件、系统、通信、调度、算法调优、模型划分等各个方面,非常复杂。

2. 在各个大公司都有很强大的 AI 团队的情况下, 你们一个小团队的技术独特性是什么?

        a. 大公司的AI团队虽然庞大,但包含了各个方向和大量业务应用人员,对于潞晨专精的这一赛道,大公司中的对应方向专业团队规模和技术能力与潞晨相比并无明显优势。

        b. 我们有高性能计算+AI领域学术界和工业界的顶尖人才和技术储备,保证我们相对大厂的技术领先:潞晨科技的团队核心成员均来自美国加州大学伯克利分校,斯坦福大学,清华大学,北京大学,新加坡国立大学,新加坡南洋理工大学等国内外知名高校;拥有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名厂商工作经历。

        c. 大公司面临的问题相对局限:大厂AI基础设施主要服务于公司内部开发,硬件高级,而且环境相对单一。其内部大部分用户和业务还在使用小模型,大厂会优先解决这些现实需求。而面向未来的,对于大模型的系统级解决方案不是相关部门的主要KPI。

        d. 我们的用户群里包括希望用最新AI技术解决各类问题的创新型公司,它们代表着未来的趋势和需求。它们需要云或者小型服务器上解决苛刻的问题;同时,我们也服务于有相关业务需求的大公司。业务场景复杂,挑战更大。

        e. 我们服务于更广泛用户,包括公有云、超算和各类型计算设备,期望让大家低门槛享受AI技术进步,让AI普惠所有人,这与大公司的基础设施以内部服务为主的目标有较大不同。

        f. 我们与用户的联系更加紧密,能够对于用户反馈进行高效交流与迭代更新;而这并不是大公司中的主要KPI,相关团队通常缺乏社区维护的动力。

3. 你们如果有技术的独特性,以及领先性, 那么你们如何把这些先进技术转化为对用户的益处?

        a. 易用性。潞晨在系统框架设计时就充分考虑降低用户的使用门槛,注重用户体验。接口设计与PyTorch风格保持一致,降低用于学习和使用成本,仅需极少量修改,便可将已有项目与Colossal-AI结合,便捷扩展至大规模并行。此外,该系统还保持了优秀的扩展性,便于根据需求添加新功能,与已有功能模块兼容。

        b. 低成本。一方面是Colossal-AI系统提升效率带来的成本降低,另⼀方面,Colossal-AI能大大简化分布式开发和训练,AI工程师无需为了分布式部署和训练额外重写代码,从而为企业减少了雇佣分布式部署工程师的人力成本。

        c. 高效反馈。通过与用户紧密联系,获得用户的真实反馈,进行高效迭代,形成闭环。

4. 现在大部分用户都用 TF, PyTorch,PaddlePaddle, 用户转到使用你们 Colossal-AI 的成本有多少?

        a. 几乎是零成本!我们的目标是现有框架 (TF, PyTorch,PaddlePaddle) 能直接使用我们的Colossal-AI。我们认为这些框架在未来会专注于帮AI用户实现功能,而不是让用户花大量精力去做性能优化。简而言之,用户在自己的笔记本电脑上写一个简单的PyTorch代码,然后Colossal-AI把这个PyTorch单机代码自动扩展到分布式系统或云端。

        b. 我们专注解决并行处理、分布式调度、异构存储空间优化、低能耗计算、弹性训练等“高性能计算”技术。这些特性会和现有框架 (TF, PyTorch,PaddlePaddle)无缝衔接,因此不需要用户去重构已有项目。

5. 如果将来 GPU 有更大的发展,在硬件层面支持并行, 你们的技术还能发挥独特的优势么?

        a. 摩尔定律失效,未来算力增加依靠并行计算而不是单核增长 (或主频增长)。即便一个GPU未来强到可以匹敌一个集群,其性能的增长也是靠更多的计算单元(比如core或thread)而产生的。要充分利用未来超强的GPU,核心问题就是挖掘无限的并行度,并且能高效地做并行计算。这就是我们的优势技术点。另外,近年来,AI大模型对内存的需求(比如GPT-3)增长远超单个GPU内存的增长速度。根据OpenAI的报告,模型大小的增长速度是每3.5个月翻倍,而GPU内存的翻倍时间甚至长于18个月。所以,我们很可能不得不将运算扩展到多个设备上。

        b. GPU等硬件能力的发展,会更加促进我们在AI领域的技术能力。类似此轮AI浪潮中,GPU的算力发展推动了数十年前被提出的神经网络,而高性能计算也从传统以CPU为主,转为以GPU为主。未来,潞晨在AI与高性能计算领域的先发优势,将助力我们更高效地利用新硬件。

        c. 我们的工作符合未来发展趋势。在可预见的未来,AI对于模型参数量和算力的需求将继续保持高速增长,因此我们将持续在此领域深耕,保持技术独特性与优越性。

6. 对于 AI 的应用程序开发者和研究者,你认为二者在将来几年面临的挑战是什么?

        a. 大模型的训练与部署:AI大模型的发展对当前软件、硬件、系统等诸多方面都提出了挑战。

        b. 低能耗:需降低大模型的训练与部署巨大耗能,与绿色低碳的理念相符。

        c. 低成本:大模型,如GPT-3,训练成本可达上千万美元,阻碍了AI普世化。

        d. 通用人工智能:尽管AI近年来在CV、NLP等领域取得了长足进展,但如何实现通用人工智能仍然任重道远。

7. 如果有无尽的资金支持, 你们项目的明年,后年的计划是什么?

        - 丰富在不同领域的AI应用

        - 高性能推理系统

        - 大规模自适应AI任务调度系统

        - 训练、微调、推理的自动化部署

        - 云端部署与SaaS

        - 兼容不同硬件

        - 兼容不同软件框架

        - 前沿技术探索

        - 低能耗AI系统构建

        - 大模型压缩

        - 开源社区维护

        - 逐步实现云端商业化和商业化闭源版本

        - 全球化推广与发展

        - 面向未来的AI软硬件系统

8. 使用ColossalAI训练的模型可以使用其他的推理引擎进行推理吗?

可以,易用性是我们一直所坚持的理念。

9. 对于时间序列这种长序列数据的并行计算是怎么做的?

针对长序列数据,我们开发了序列并行,它能帮助突破原有机器能力限制,直接处理长序列数据,详见https://arxiv.org/abs/2105.13120

我们也针对特殊序列进一步深入研究,如长蛋白质序列,详见https://arxiv.org/abs/2203.00854

10. AI框架是基于pytorch的,有支持TF和PP的计划吗?

目前,我们以PyTorch为切入点,后续我们将会持续开发,尽早支持其他框架。

11. 和其他同类项目相比最大的优势是什么?

a. 易用性:仅需极少量修改,便可将已有项目与Colossal-AI结合,快速将单机代码自动高效地扩展到分布式系统。

b. 低成本:Colossal-AI既提升了硬件利用率,降低计算资源成本;又可减少雇佣专业人员的人力成本。

c. 适用场景多样:

        1) 高效分布式扩展,帮助追求极致性能;

        2) ZeRO等低资源需求技术,助力经济型业务部署;

        3) 除了传统CV、NLP等方向,还涉足医药、自动驾驶等交叉领域。

d. 用户联系紧密:能够对于用户反馈进行高效交流与迭代更新。

e. 兼容性:系统还保持了优秀的扩展性,便于根据需求添加新功能,与已有功能模块兼容。

f. 专业性:专注解决AI项目中的“高性能计算”技术。

g. 规划长远:不仅在当下优势明显,更着是面向未来的AI系统。

12. 在模型的搭建方面是否更加便捷?

模型搭建与PyTorch风格保持一致,几乎不需额外学习和修改。

对于需要并行处理的大模型,无需为分布式部署和训练额外重构代码,会极大简化开发流程。

13. 在模型的部署上有什么特性?

a. 方便快捷:模型搭建与PyTorch风格保持一致,学习成本低

b. 易于扩展:无需为分布式部署和训练额外重构代码,会极大简化开发流程。

c. 适用场景多样:高效分布式扩展,帮助追求极致性能;ZeRO等低资源需求技术,助力经济型业务部署。

d. 兼容性好:方便根据需求引入新功能,并与已有功能模块兼容。

14.  在AI服务的高并发请求上,有什么工程上的解决方案?

我们正在开发高性能推理系统和大规模自适应AI任务调度系统,将会致力于解决这方面的难题,欢迎持续关注Colossal-AI 和潞晨科技。

Colossal-AI系统会根据用户反馈与既定计划,进行密集的迭代更新,还会在未来1年内发布若干子系统,并陆续开源,最终形成面向高性能人工智能平台的丰富解决方案,充分满足用户的不同需求。欢迎各位积极提issue和PR,共同为构建这一AI基础设施舔砖加瓦,解放AI生产力!

 开源地址:

https://github.com/hpcaitech/ColossalAI
 

参考链接:https://bbs.csdn.net/topics/605023916

你可能感兴趣的:(人工智能)