从云存储的角度浅显的聊一聊 AIGC

正所谓:桃李春风一杯酒,江湖夜雨十年灯。

人工智能在过去十年中从实验室走向产业化生产,在语音识别、文本识别、视频识别等感知领域取得了巨大突破。

现在,你要是还没听过“通义千问”、“通义听悟”,出门都不好意思和别人打招呼。那么,以其为代表的 AIGC(AI Generated Content)又是如何凭实力屡屡破圈,其发展更是经历了怎样的烈火烹油、鲜花着锦呢?

今天,我们就来聊一聊。

聊之前,先插播一段广告:《算力赋能 AIGC 专题训练营》火热开营,阿里云技术专家保姆式教学,利用文件存储 NAS 和机器学习平台 PAI,搭建当下最热的 AIGC 应用,戳这里>>,立即参与!

一、从模仿到创造,AIGC “天生要强”

说到 AIGC,就不得不说与其相对应的 PGC(Professional Generated Content)和 UGC(User Generated Content)。不论是 PGC 还是 UGC,都是以人作为内容的主要生产者(最早的“以人为本”的概念甚至可以追溯到两千多年前的管仲),而 AIGC 是以 AI 为核心来生产内容,因此二者有着显著的不同。

从云存储的角度浅显的聊一聊 AIGC_第1张图片

AIGC 技术主要涉及自然语言处理 NLP(包含自然语言理解 NLU 和自然语言生成 NLG)、AIGC 生成算法、预训练模型、多模态等。这些技术本质上是使用 AI 算法对大量训练数据集进行学习,寻找已有数据的规律并适当举一反三,从而使 AI 获得智能数字内容孪生能力、编辑能力、创作能力。

从云存储的角度浅显的聊一聊 AIGC_第2张图片

传统的 AI 偏向于分析能力,个性化推荐就离不开它。但,现在,时代变了,版本改了。与传统的 AI 相比,在算法、算力、数据这三驾马车的拉动下,AIGC 青出于蓝而胜于蓝。

从云存储的角度浅显的聊一聊 AIGC_第3张图片

简单来说,主要有三大显著优势:

首先是“无中生有”。让 AI 从感知、理解世界升级到生成、创造世界。传统模式中,AI 就像机械版王语嫣,讲究“笔笔有来历”,给出的回答都出自事先存入的数据库。生成式 AI 在收到指令信息后,却会进行创造性地再创作。比如,生成式 AI 模型可以基于真实的人脸,生成现实世界中并不存在的人脸。

其次是“自我训练”。一杯茶一套题,聚精会神搞学习。AIGC 生成算法使得机器可以在海量数据上进行无监督预训练,不需要班主任盯梢,大大缩短了训练时间,智能气息拉满。在此之前,模型机器训练(如自动驾驶)十分依赖人工数据标注,一旦转换场景就需要重新标注,需要耗费大量人力且低效。

最后是“走向通用”。能做到“触类旁通”的通用人工智能,是人工智能的终极理想,AIGC 作为全村的希望,正逐渐靠近这个理想。在多模态技术的支持下,预训练模型向横跨文本、图像、语音、视频的全模态通用模型发展。这对好 CP 携手,同一个AIGC 模型才能高质量地生产出多种类型的内容。

从云存储的角度浅显的聊一聊 AIGC_第4张图片

二、“三剑合璧”,驱动 AIGC 全面提速

2021 年之前,AIGC 生成的主要还是文字,自动写稿神器的存在感满满。如今,新一代模型可以处理的格式内容多点开花,不管是文字、图像,还是代码、音视频,通通不在话下。近日国家互联网信息办公室发布的《生成式人工智能服务管理办法(征求意见稿)》,就明确指出生成式人工智能包括基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

从云存储的角度浅显的聊一聊 AIGC_第5张图片

AIGC 高质量内容产出的背后,离不开大型跨模态预训练模型的成熟。这是因为随着参数规模和模型性能的不断提升,大语言模型 LLM(即Large Language Model,参数一般在百亿以上)在自然语言处理、计算机视觉、跨模态等领域展现出较好的拓展性,并且不断扩展应用边界,持续推动 AIGC 的应用落地。

从云存储的角度浅显的聊一聊 AIGC_第6张图片

阿里“通义千问”大模型,就是由庞大数据集训练而成。要知道,数据决定了机器学习算法的性能、泛化能力、应用效果;数据获取、标注、清洗、存储也是机器学习瓶颈之一。“通义千问”强大的通用语言能力背后,是超过 10 万亿的参数量。同时,通义千问还引入了知识图谱技术,对各类知识进行分层、归纳、关联,从而给出更为准确、全面的答案。阿里将开放通义千问的能力,为每一家企业打造自己的专属 GPT (一种预训练的语言模型)。

需要注意的是,AI 大模型的推理、训练高度依赖 GPU 芯片,就像唐僧离不开排头兵孙悟空。缺少芯片会导致算力不足,算力不足意味着无法处理庞大的模型和数据量。所以,不同厂商的 AI 模型会存在智商差距。有的能出口成章,有的还在牙牙学语。

从云存储的角度浅显的聊一聊 AIGC_第7张图片

此外,AIGC 不仅需要大模型、大数据和高算力“三剑合璧”,也需要一个稳定、高效、安全的数字基础设施,来支持其完成生成、存储和传输内容的整个过程,并尽可能避免重复建设、减少数据移动的工作量。

云计算基础设施(包括高性能芯片、存储、计算、网络等)作为算力底座,重要性日益凸显,可以为 AICG 应用以及产业发展提供可持续发展的保障。因此,不少公司选择把模型开发这项“AI 炼丹”的工作通过云来完成,以相对较低的成本,满足突发性的算力需求。积极迎接 AIGC 时代的阿里云,也为客户架起了“炼丹炉”。

从云存储的角度浅显的聊一聊 AIGC_第8张图片


三、云存储“牵手” AIGC,成本更低、性能更高

AI 大模型的研发动辄要超千亿参数,其难度不容小觑。当下,在 AI 大模型赛道中,巨头派、海归派、创业公司转型派、学院派等各路选手争奇斗艳。国外头部企业偏向于通用场景下的 AIGC 能力,国内在 AIGC 应用方向更加场景聚焦。不过,有的选手在发展 AIGC 业务的过程中,不可避免地遇到了一些挑战:

● 数据贯穿整个 AI 训练环节,存储存在孤岛,需要多套存储系统,在多系统间频繁搬迁数据,存储效率低;
● 训练模型需要百万级图片/文本素材,数据长期保存带来存储较高的成本;
● 在大模型训练任务场景,动辄需要几百甚至几千张 GPU 卡的算力,服务器节点多、跨服务器通信需求巨大,使得网络带宽性能成为 GPU 集群系统的瓶颈。

为了清除这些“拦路虎”,更好地发展 AIGC 业务,就需要一套成熟的方案,来承载训练、推理环节所需要的海量数据。

从云存储的角度浅显的聊一聊 AIGC_第9张图片

■ 低成本
使用阿里云对象存储 OSS 构建统一的数据存储底座,生命周期分层策略降低冷数据的存储成本。同时提供传输加速方案,降低海外用户的等待时间;围绕业务活动峰谷,文件存储 NAS 进行弹性扩缩容,进一步节省成本。

■ 高性能
文件存储 CPFS 不仅提供高达百 GB 的访问带宽,可以满足成百上千个节点同时访问的需求,同时支持数据流动功能,加速训练环节的数据读写性能。同时,CPFS 配合 PAI-灵骏智算集群在模型训练上实现了 3 倍以上的加速效果,并且凭借自研高性能网络技术栈,进一步消除性能拓展的瓶颈;在推理场景下,文件存储 NAS 提供了多机 GPU 计算所需的标准文件接口、多机写和读一致性,以及高聚合吞吐性能。

AI 就像继承绝世武功且不走寻常路的江湖游侠,走的是上层路线,打的从来就是排行榜前列的,比如 AlphaGo 一上来就对战顶尖棋手,而 AIGC 则像是一个厚积薄发的一代宗师,自创独门心法,开宗立派。现在,AIGC 已经成为各路英豪必争之地,在影视、娱乐、元宇宙等领域更是不断地揭开新的篇章。

点击立即免费试用云产品 开启云上实践之旅!

原文链接

本文为阿里云原创内容,未经允许不得转载。

你可能感兴趣的:(我是程序员,AIGC,云计算,阿里云)