什么是AIGC?
最近,又火了一个词“**AIGC”**2022年被称为是AIGC元年。那么我们敬请期待,AIGC为我们迎接人工智能的下一个时代。
TIPS:内容来自百度百科、知乎、腾讯、《AIGC白皮书》等网页
AIGC 即 AI Generated Content,利用人工智能技术来生成内容,它被认为是继PGC、UGC之后的新型内容创作方式。AI绘画、AI写作等都属于AIGC的分支。2022年AIGC高速发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
AIGC已经代表了AI技术发展的新趋势。过去传统的人工智智能偏向于分析能力,即通过分析一组数据,发现其中的规律和模式并用于其他多种分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。
因此,从这个意义上来看,广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。
因此,AIGC已经加速成为了AI 领域的新疆域,推动人工智能迎来下一个时代。Gartner将生成性AI列为2022年5大影响力技术之一。MIT科技评论也将AI合成数据列为2022年十大突破性技术之一,甚至将生成性Al(GenerativeAl)称为是AI 领域过去十年最具前景的进展。未来,兼具大模型和多模态模型的AIGC 模型有望成为新的技术平台。
2023年1月10日,百度Create AI开发者大会上,百度创始人、董事长兼首席执行官李彦宏表示:AI从理解内容,走向了自动生成内容,包括AIGC用于作画、图文、视频等多类型的内容创作。
央视网人工智能编辑部是中央广播电视总台旗下的智慧创新基地,布局“云、数、智”构建全媒体产品服务和传播生态体系,充分发挥“内容为王+平台致胜+技术领先”的核心竞争力推动媒体深度融合、助力各领域数据化转型、加速产业智能化升级。
2022 年12月,OpenAI 的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。
全球各大科技企业都在积极拥抱AIGC,不断推出相关的技术、平台和应用。
2.1 AI技术的融合发展,催生了AIGC的爆发
一是,基础的生成算法模型不断突破创新。
2014年,伊恩.古德费洛(lanGoodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。GAN 使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如 DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN、对抗自编码器(AdversarialAutoencoders,AAE)、对抗推断学习(Adversarially Learned Inference,AL)等。
随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。
其中,Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。
后来出现的 BERT、GPT-3、LaMDA等预训练模型都是基于Transformer 模型建立的。而扩散模型(Diffusion Model)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。
扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为唯一输入生成逼真的图片。
二是,预训练模型引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了AIGC技术能力的质变,以上的诸多落地问题得到了解决。
三是,多模态技术推动了AIGC的内容多样性,让AIGC具有了更通用的能力。预训练模型更具通用性,成为多才多艺、多面手的Al模型,主要得益于多模型技术(multimodal technology)的使用,即多模态表示图像、声音、语言等融合的机器学习。
2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Language-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。
因此,CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。
另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。据统计,CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。
2.2 AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来
目前,AIGC产业生态体系的雏形已经成型,呈现为上中下三层结构。
第一层,为上游基础层,也就是由预训练模型为基础搭建的AIGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。以2020年推出的GPT-3模型为例,Alchemy API 创始人EIliotTurner 推测训练 GPT-3 的成本可能接近1200万美元。因此,目前进入预训练模型的主要机构为头部科技企业、科研机构等。
第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。预训练的大模型是基础设直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AlGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。Stable Diffusion开源之后,有很多基于开源模型的二次开发,训练特定风格的垂直领域模型开始流行,比如著名的二次元画风生成的Novel-AI,还有各种风格的角色生成器等。
第三层,为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。在应用层,侧重满足用户的需求,将AlGC模型和用户的需求无缝衔接起来实现产业落地。以Stable Diffusion开源为例,它开放的不仅仅是程序,还有其已经训练好的模型,后继创业者能更好的借助这一开源工具,以C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为AIGC在更广泛的C端用户中的普及起到至关重要的作用。现在贴近C端用户的工具越发丰富多样,包括网页、本地安装的程序、移动端小程序、群聊机器人等,甚至还有利用AIGC工具定制代出图的内容消费服务。
未来市场:
随着标注数据累积、技术架构完善、内容行业对丰富度/事实性/个性化的要求越来越高,AIGC行业即将被推向前台。
在未来2-3年间,AIGC的初创公司和商业落地案例将持续增加。目前由人工智能生成的数据占所有数据的1%不到,根据Gartner预测,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。
我国的AIGC行业尚未发展成型,目前,AIGC代表公司较少,且上游还有众多欠缺。
国内的AIGC场景开发较少:在我国,由于技术发展不足以及投资环境的影响,AIGC大多被作为公司的部分业务、乃至相对边缘化的功能进行研发开发,独立运行的初创公司数量明显少于国外,大部分细分赛道的初创玩家在5家以下,这也间接导致了国内的AIGC场景开发较少。
AIGC应用场景深度不足:国内布局最多的赛道是写作和语音合成领域,虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘,例如个性化文本生成、合成数据等赛道均是重点布局领域。此类业务拓展的综合性要求较高,需要客户方的数字化程度以及对对应行业的充分了解。
AIGC 将是 Web3 时代的生产力工具。
AIGC 技术主要涉及两个方面:自然语言处理 NLP 和 AIGC 生成算法。
3.1自然语言处理技术 NLP
自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。融合了语言学、计算机学、数学,使得计算机可以理解自然语言,提取信息并自动翻译、分析和处理。
自然语言处理技术可以分为两个核心任务:
自然语言理解NLU:希望计算机能够和人一样,具备正常人的语言理解能力。过去,
计算机只能处理结构化的数据,NLU使得计算机能够识别和提取语言中的意图来实
现对于自然语言的理解。由于自然语言的多样性、歧义性、知识依赖性和上下文,
计算机在理解上有很多难点,所以NLU至今还远不如人类的表现。
自然语言理解跟整个人工智能的发展历史类似,一共经历了3次迭代:基于规则的
方法、基于统计的方法和基于深度学习的方法。
自然语言生成NLG:将非语言格式的数据转换成人类可以理解的语言格式,如文章、
报告等。NLG的发展经历了三个阶段,从早期的简单的数据合并到模板驱动模式再
到现在的高级NLG,使得计算机能够像人类一样理解意图,考虑上下文,并将结果
呈现在用户可以轻松阅读和理解的叙述中。自然语言生成可以分为以下六个步骤:
内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。
NLP主要被应用在四个方面:
情感分析:互联网上存在大量的信息,表达的内容都是多种多样的,但抒发的感情
大致可以分为正面和负面的,可以被用来快速了解用户的舆情情况。
聊天机器人:近年来,智能家居的发展和普及使得聊天机器人的价值扩大。
语音识别:微信中可以通过语音进行输入或直接将语音转化为文字,汽车导航可以
直接说目的地,大大提升了便利性。
机器翻译:机器翻译的准确率在近年大幅提高,youtube 和 netflix甚至可以做到视
频机器翻译.
商业上,NLP主要被应用在一下领域:
用于处理财务、医疗保健、零售、政府和其他部门手写或机器建立档案
文字处理工作,如:名称实体辨识(NER)、分类、摘要和关联撷取。这能将
撷取、识别和分析文档资讯的流程自动化。
语意搜寻和资讯撷取和知识图表建立
跨零售、财务、旅游和其他产业客户的交互AI系统等。
神经网络,尤其是循环神经网络(RNN)是当前 NLP 的主要方法的核心。其中,2017 年由Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl等大型语料库进行训练,并可以针对特定任务进行微调。
Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外,也被用于计算机视觉领域。与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
3.2 AIGC生成模型
近年来,AIGC 的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。可以看到,大模型、大数据、大算力是未来的发展趋势。
生成对抗网络 GAN(Generative Adversarial Networks)
2014 年,Ian J.Goodfellow 提出了 GAN,是一种深度神经网络架构,由一个生成网
络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网
络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,
两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,
训练结束。
扩散模型 Diffusion Model
扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在 OpenAI,Nvidia
和 Google 设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架
构包括 GLIDE,DALLE-2,Imagen 和完全开源的稳定扩散。扩散模型已经拥有了成
为下一代图像生成模型的代表的潜力。以 DALL-E 为例,能够直接通过文本描述生
成图像,让计算机也拥有了人的创造力。
除了上述提到的自然语言处理技术和 AIGC 生成算法模型以外,超级计算机和算力这些硬件作为基础设施也是不可或缺的。在机器学习的过程中,需要通过大量的训练来实现更准确的结果,这样的计算量普通的电脑是无法完成的,目前主要由英伟达 A100 构建的计算集群完成,而国内外的初创企业也会通过云实现。
AIGC将有望成为数字内容创新发展的新引擎。
1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。
2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。
3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。
应用场景:
1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场。
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画。
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服。
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感。
1)澜舟科技开发的孟子模型已在营销文案生成、文学辅助创作、研报生成、论文助写、数字人脸生成、新闻报道撰写、智能客服等领域落地。
利用孟子模型,仅需几秒就能生成一篇营销文案,成本约2元,而完全由人工撰写约需60元。周明说,孟子模型所学知识远超个体,“写出”的文案在多样性和新颖性方面更具优势。“整体来看,利用AI辅助创作,提高内容生产效率、降低成本,已是大势所趋。”
2)自然语言处理、语音识别、计算机视觉等任务的性能均显著提升。这些技术的变革使AI越来越“聪明”和“善解人意”,通过大量训练,在很多专业领域可表现出超过人类的创作能力,同时还能与人类顺畅交流。
标准化、制式化的创作和职业将被更多替代,而具有独立思考、具备丰富创意的内容及工作,重要性将更加凸显。
3)AIGC应用将提升生产效率,加速内容生产和产品研发进程;改变信息获取来源,优化用户搜索体验;也会降低互联网内容的生产门槛。
AIGC有助于拓展艺术创作的想象力。创作者受自身习惯、风格与偏好影响,其想象力易拘泥于某一子空间;而人工智能没有桎梏与约束,能更好地激发艺术创造力。
AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。
1)知识产权争议。AIGC的飞速发展和商业化应用,除了对创作者造成冲击外,也对大量依靠版权为主要营收的企业带来冲击。
2)关键技术难点。AIGC距离通用人工智能还有较大差距,当前热门的AIGC系统虽然能够快速生成图像,但是这些系统未必能够真正理解绘画的含义,从而能够根据这些含义进行推理并决策。
3)创作伦理问题。部分开源的AIGC项目对生成的图像监管程度较低,数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力,一些平台已经开始进行伦理方面的限制和干预,但相关法律法规仍处于真空阶段。
4)环境挑战。基于预训练模型的AIGC不仅是训练还是运行,都需要大量算力支持,无形中增加了能源消耗,其高速发展给环境保护和气候变化带来了巨大挑战,产生高碳排放。
5)安全挑战。安全问题始终是AI技术发展和应用中不可回避的。同样的,在AIGC方面也存在内容安全、技术滥用、用户隐私和身份、AI内生安全等多个方面的安全挑战。
一是内容本身。一直以来,互联网信息空间都面临着虚假信息和信息内容安全的挑战,国内外互联网内容平台,如Facebook、Twitter、微信、微博等都不断在提升其虚假内容和信息安全的治理能力。但随着AIGC内容的持续增长,虚假信息和信息内容安全的挑战也会增加。
二是,对AIGC的恶意使用或滥用,引发的深度合成诈骗、色情、诽谤、假冒身份等新型违法犯罪行为。不法分子利用开源的AIGC模型或工具,可以以更低的门槛、更高的效率来制作出音视频、图片和文字等种类丰富的、真伪辨别难度大的虚假信息,同时也更容易地盗用用户身份,以此开展新型诈骗等非法活动。
三是,用户隐私和身份安全。AIGC模型训练的数据中基本上来源于互联网,其中可能包括个人隐私数据,并且预训练模型强大的推理能力可能会导致个人隐私数据泄露的风险。此前,如下图所示GPT-2就发生过隐私泄露的问题,可见个人隐私数据是被收录在模型的训练数据集之中。
四是,AIGC的内生安全挑战。在MaaS的产业应用模式下,生成模型的内生安全问题,如遭受后门攻击、数据中毒等,以及如何将被攻击模型中的有毒数据去除。与此同时,用户数据通常以明文形式提交给模型服务提供商,如何利用现有的加密技术保护用户数据隐私也是一个重要的安全挑战。
社会各界需要携手应对AIGC领域的相关问题和挑战,致力于打造绿色可持续、环境友好型的AI模型,实现智能化与低碳化融合发展。
“未来已来,让我们拥抱AIGC,拥抱人工智能的下一个时代,打造更美好的未来。”