目录
前言
人工智能技术回顾
AIGC近期动态梳理
1. 国内动态
2. 国外动态
3. OpenAI的关键动作
4. AIGC的技术变革
AIGC的关键应用
1. AIGC应用背后的驱动力
2. AIGC的三大原能力
3. AIGC的四大产品形态
大模型如何融入行业?
1. 通用行业融合
2. 垂直行业融合
这篇文章主要阅读者是产品经理、业务负责人、AIGC核心参与者等。
现在AIGC技术发展太快,每天都有不同的变化。刚才我看Google发布的Gemini多模态能力,着实被惊喜(吓)到了:AI可以看图说话、理解和推理、预测事情的发展动态,简直无所不能。
所以这篇文章是想站在2023年底这个节点,系统性梳理下AIGC的技术现状和行业应用,方便我们对AIGC技术、产品和商业有个全局的理解。
警示: 不论行业热度如何,企业AIGC布局始终需要保持理性和克制。尤其针对关键业务环节投入,秉承先建数字基础设施,再引入大模型能力的原则;综合业务价值和成本投入,形成客观决议。
以下内容,敬请享用。
本文主要包含四个方向的内容:
● 人工智能技术回顾
● AIGC近期动态梳理
● AIGC的关键应用
● 大模型如何融入行业
人工智能的发展经历几次大的技术变革,总结起来主要有三个范式:逻辑学、概率论、深度学习。
1. 逻辑学:由逻辑规则构建的专家系统,这时候AI就像一位经验丰富的‘老专家’,能基于以往的经验提供解决方案。
这种模式带来的问题,是专家知识和经验总会有局限性,因此AI所能处理的问题也存在边界。
专家系统被广泛应用在不同的领域,例如在工业领域实现生产质量监控,生产过程控制等;在金融领域实现风险评估、投资决策等。
2. 概率论(机器学习):由数据统计构建的概率系统,这时候AI就像一位能通灵的‘算命先生’,能基于概率分布提供决策辅助。
例如以贝叶斯网络,隐马尔可夫模型等为代表的概率统计算法逐步被应用后,形成ASR(语音识别)、NLP(自然语言处理)、CV(计算机视觉)、垃圾邮件监测、信用评估等领域。
3. 深度学习:由神经网络构建的决策系统,这时候AI就像一位有学问的‘智者’,能通过数据特征形成精准决策。
例如以小样本学习、强化学习、迁移学习为代表的深度学习框架已经成为移动应用的支撑。包括游戏AI、自动驾驶、智能推荐、内容生成、人脸识别等领域。
早期的逻辑控制、概率统计,包括深度学习主要以感知和理解世界,为人类提供决策辅助为主,因此也被称为‘决策式智能’。
‘决策式智能’的目标相对聚焦,主要通过特征抽象和映射关系解决单场景决策问题。例如过去AI下围棋、识别人脸都是决策式智能的应用范畴。
随着深度学习的广泛应用,逐步衍生出一种新的技术范式‘生成式智能’。‘生成式智能’主要以知识构建和推理演绎,为人类提供创造力支撑为主。
‘生成式智能’的目标更加泛化,主要通过推理能力和思维链的构建,解决跨域多场景问题。例如ChatGPT知识问答、代码生成,DALL-E的图片生成都属于生成式智能的应用范畴。
要详细了解‘生成式智能’,我们需要从一种特殊的算法框架‘Transformer’谈起。
Transformer由2017年谷歌在《Attention is All YouNeed》一文中发布,这无疑是AI界重要的里程碑,因为它使得深度学习参数突破1亿。
那Transformer到底有哪些神奇之处呢?
Transformer首先是一种基于‘自注意力机制’的神经网络模型。
稍微解释下‘自注意力机制’,它的核心思想是:确保在处理序列中的每个单词时,始终把注意力同时放在其他位置,以保证能理解单词之间的依赖关系。
简单来讲,就是对于输入的每个序列单词形成一个查询(Query)矩阵,一个键(Key)矩阵,一个值(Value)矩阵,通过矩阵的乘积和权重的加权,得到最终的输出结论,让AI由‘单点思维’变成‘全局思维’。
毫无疑问,系统思维更有利于做出正确的决策。
Transformer最初主要用来完成语言翻译任务,包括Encoder(编码器)和Decoder(解码器)两部分。
后来发展为两条路径,一条路径就是大家熟知的BERT家族,主要使用Encoder作为预训练模型,原理是“理解输入序列的信息,并将其编码为隐藏表示向量”。
这种模式有点像让模型学习做‘完型填空’,先前AI语音的核心技术链条主要基于BERT家族。
另一条路径就是大名鼎鼎的GPT家族,主要使用Decoder方式,原理是“根据已经生成的输出序列,实时预测下一个位置的词”。
它的成功之处在于扩大了语言模型的规模,显著提升小样本(Few-Shot)和零样本(Zero-Shot)状态下的学习能力。
这种模式有点像‘自然对话’,这也是为什么ChatGPT会展现出惊人的理解力和共情能力的原因。
‘完形填空’实现起来简单,但无法穷尽所有的场景;‘自然对话’虽然实现起来更复杂,但应用效果更好。
例如你可以让GPT按照特定风格写小说,做数学逻辑题,识别一张图中有趣的部分,做复杂的意图识别等。
GPT家族主要用三步法解决了这个难题。
1. 开卷有益:无监督学习。让AI学会从海量知识库中学习知识,让它成为最强大脑。
2. 模板微调:监督学习。让AI学会在既定的规范下形成回答,让它成为最懂规矩的机器人。
3. 价值引导:RLHF基于人类反馈的强化学习。用人类对它的回答评分调整模型,引导它生成更有价值的回答。
所以说生成式智能更接近人的成长模式,除了海量吸收知识,还要基于知识的实践应用进行复盘和反思,不断改善思考和行为模式,朝着最优方向去进化。
区别在于人要承认错误、颠覆认知,就得克服‘人性’。AI则不同,你只需要帮它构建模式,它会自动执行。
随着ChatGPT爆火,各大科技公司可一刻不敢闲着。
国内就形成了三大矩阵,云厂商、科技公司、新生企业。
第一类,以传统云厂商为主的大模型产品矩阵(比如百度文心、千帆大模型,阿里通义大模型、华为盘古大模型等),主要依托原有云服务形成大模型底座和MaaS解决方案。
第二类,以AI科技公司为主的大模型产品矩阵(比如讯飞的星火认知大模型、理想的MindGPT、出门问问的猴子序列大模型等),主要提供大模型底座及AI行业应用,包括一部分智能硬件产品。例如讯飞在语音基础上形成教育类大模型应用和智能硬件。
第三类,以新生创业公司为主的大模型产品矩阵(比如清华系月之暗面推出Moonshot大模型,智谱AI推出GLM大模型等),主要提供大模型底座、特定领域的垂直应用。
国外大模型更是风起云涌,比如Meta的羊驼(LLAMA)大语言模型,面向音频生成的Voicebox,谷歌推出的Gemini多模态大模型。
包括随着类似Stable Diffusion这样的图像大模型的出现,AI绘画应用相继诞生,其中包括了 MidJourney、Dall-E2、 Imagen 等。以及各种视频生成(Make-a-Video、ImagenVideo),3D模型生成(DreamFusion、Magic3D 和 Get3D),包括代码生成工具 GitHub Copilot 都开始受到广泛关注。
OpenAI并未止步于ChatGPT取得的成就,而是快马加鞭推出GPT4、GPT4 Turbo、GPT Plugin、GPTs等一系列‘王炸’级别的技术。
当然费用也高了不少,其中GPT4(3.3元/次)的费用比GPT3.5(6分/次)高近60倍,GPT4 Turbo的费用则比GPT4高8倍左右,也难怪大家都说OpenAI在抢钱。
我们看看这么贵的技术,功能上到底牛在哪。
首先在如何将大模型能力应用化这件事上,OpenAI非常坚定。ChatGPT推出Plugins插件系统,插件可以将ChatGPT连接到第三方应用程序,一方面可以访问最新的互联网信息,另外也可以执行多场景任务,例如实时信息检索、订餐、订酒店、购物等。
微软Newbing就通过OpenAI的插件能力支撑,结合第三方内容和服务生态的融入,形成了强大的大模型应用能力。ChatGPT插件的逻辑和微信生态的小程序,Appstore的生态应用如出一辙,核心让AI不仅提供人性化交互能力 ,还能提供全流程的服务能力,要知道交互只是手段,本质是为用户提供完整服务。
除了插件能力,GPT4基础大模型的能力升级也非常惊人,彻底打破了大语言模型的魔咒,融入视觉和多模态能力,包括语音的对话和理解,图片的读取和推理。
其中语音对话能力直接秒杀行业现有交互机器人,能够通过情感识别、对话模式调整进行情感互动。比如如果AI识别到聊天对象是受了委屈的小孩子,会自动切换成儿童安抚模式。
此外,GPT4的多模态能力更是让人眼前一亮,比如旅行时可以拍摄地标咨询人文历史,拍摄冰箱生鲜图片咨询菜谱方案,拍摄数学题询问解题方法等等,这些丰富的应用场景支撑无疑让产品经理激动不已。
OpenAI更是在11月的开发者大会上推出GPT4 Turbo,GPT4 Turbo除了拥有更新更全的数据库之外,还在多模态推理能力上做了深化。
包括支撑视觉到文本转换,支撑指令遵循(instruction following)、思维链(chain-of-thoughts)、 上下文少样本学习(in-context few-shot learning)能力,可以理解图片中人和物体间的关系,事件的先后顺序,包括计数、生成字幕和描述,解释笑话,回答科学问题等。
例如用户输入一张网站设计草图,它可以直接输出前端实现代码。此外GPT4 Turbo在图片识别和理解能力上的进化也非常激进,例如当你输入一张山地自行车图片,并询问如何调整座椅高低位置时,它能根据正确理解图片逻辑信息并给出整方案。
再比如针对一些专业问题例如医疗领域,用户可以上传CT影响,AI能根据图片理解识别是否有肿瘤(当然这部分的应用还需暂缓,究其原因你懂的)。
过去CV大模型主要应用于‘文生图’,通过输入文字意图生成对应的图片。多模态区别大语言模型或者CV大模型的核心在于模态之间的转换,AI将图片翻译成语言文字,进而利用新的文字组合生成图片或视频。这样的做法,可以有效提升复杂交互过程,AI对用户意图的判断力。
过去我们在传统AI例如图像识别、视频理解包括语音交互等领域遇到的稀疏样本和cornercase决策难题,今天看起来都可以通过多模态融合来解决,逻辑很好解释,就是你输入的数据源头越多、AI对信息的理解越充分,自然能与用户产生更好的互动。
目前从实现原理来看,多模态主要有五类架构实现方式:
a)合并注意力架构(Merge-attention):多个输入模态调整为统一的特征表示,多个模态的特征在自注意力之前被合并,共同进入Transformer。
b)共同注意力架构(Co-attention):每个输入模态都具备私有自注意力通道,用于模态独立特征的导入,然后再使用共同的交叉注意力层融合多模态特征。
c)交叉注意力架构(Cross-attention):对于多模态任务,将图像与语言分别结合,实现图文信息的相互嵌入与问答。
d)三角 Transformer 架构(Tangled-transformer):使用三组 Transformer 模块同时处理 动作、图形对象和语言特征,通过特定的三角连接关系,注入其他模态的 Transformer 网络, 以不同模态的信息融合。
e)模态间对比学习架构(Inter-Modality Contrastive Learning):不同模态的信息被分解, 通过矩阵结构建立多模态对比学习关联。
业内猜测GPT4所使用的架构方法正是‘交叉注意力架构’。
核心思路为:不是直接训练一个多模态模型,而是在已经预训练好的语言大模型中引入图像理解能力。
1)引入预训练好的视觉模型用来提取图像的语义特征,并且嵌入预训练好的语言模型中。
2)引入一个包含图像和文本的多模态数据集来 finetune模型。 这种做法可以有效节省成本,可以最大化使用 已有资源,例如ChatGPT中已经构建好的语言模块。
相比 Open AI 早期持续投入大语言模型LLM,Google更多探索图像和多模态大模型边界。
今年三月google 和德国柏林工业大学公布了当时全球最大视觉语言模型 PaLM-E(Pathways Language Model with Embodied)。
PaLM-E 不仅可以理解图像,还能理解、生成语言,且可以用于多个具体任务,包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述等。
此外Google近期发布的新一代多模态大模型 Gemini 可谓惊艳全场,它的训练算力是 GPT4 的 5 倍、数据集是GPT4的2倍。
长期来看Google 体系独有的消费场景数据有望增强 Gemini 训练效果,减少大模型幻觉。Gemini 可以访问 YouTube 视频、谷歌图书、搜索索引以及 Google Scholar 的学术资料,这些数据大部分都是谷歌独有的,这可能会让谷歌在创建比其他公司更智能的模型方面更具优势。
与单模态大模型相比,多模态的进入门槛更高。这也就对大模型安全体系提出更高要求,主要包含以下可能存在的风险:
是什么在驱动AIGC的关键应用呢?主要包含三个方面:模型、算力和生态。
1) 模型:更大、更优、更精准。
例如OpenAI的GPT家族可谓全球最大的大语言模型,随着技术发展,大模型在广度上又衍生出代码生成、音频生成、图像生成、视频生成、3D生成、多模态等等。
目前基础大模型分为开源和闭源两种应用模式,例如GPT4,以及谷歌的 Bard、Claude 等大模型均是闭源模型,优势在于性能强大和易于上手, 目前依然是绝大多数海外主流生成式 AI 应用的首选;
而由 LLaMA2、Stable Diffusion,GLM130B,OPT,BLOOM 引领的开源模型,其优势在于灵活性和低成本,特别是llama2的发布,让应用层公司可以基于开源模型进行私有化部署,更低成本实现差异化应用。
2) 算力:更快、更好、更便宜。
AI界的传奇不属于大模型厂商,而应属于芯片公司。因为任何一个大模型的训练都需要巨大的芯片成本。
因此随着大模型应用的普及,芯片厂商也在紧锣密鼓进行新品研发,例如国内有华为麒麟芯片,百度昆仑芯片;海外有英伟达最新的人工智能芯片GH20,微软自研芯片Athena,谷歌第五代AI芯片TPU等。
大模型厂商为什么要自主研发AI芯片,第一是提升软件和硬件平台的一致性和协同性,第二就是降低硬件成本,加速大模型规模化普及。
3) 工具集:更全、更多、更高效。
AI 组件层(AI Stack)工具包含应用框架、数据处理、模型训练、模型评估、应用部署等几个关键环节,随着头部云厂商不断拓展大模型行业应用,AI工具的平台化和一体化程度也会越来越高。
a) 应用框架:通过提供一套统一组件和接口,将开源模型、API 和数据库等不同的外部组件链接在一起,能够帮助应用开发者快速构建基于大模型的AI 应用,简化应用的开发和创建过程,代表厂商包括 LangChain, GPT Index 和 Cognosis等。
b) 数据处理:基础大模型仅限基于通用数据集的推理,针对行业垂类模型和应用,需要使用时效性强的垂直领域(私有)数据进行训练,特别是在金融、医疗等领域,包括对实时性要求高的领域,例如天气、体育、新闻等。
开发人员需要通过外挂方式来调用专业数据,实现高效的基础数据融合。涉及工具包括向量数据库 Pinecore 、 Chroma、Redis等 、 上下文窗口 LangChain 、 LlamaIndex 等。
c) 模型训练:由于各大模型的尺寸、 支撑模态、输出质量、上下文窗口大小、成本和延迟各不相同,针对不同的应用、开发者可以选择多种基础底大模型,包括开源和闭源模型,也可以针对性训练自己业务领域的专属模型。
涉及到的AI组件包括:模型库 Hugging Face、Replicate等、深度学习框架 TensorFlow、PyTorch等、训练工具 Mosaic、Cerebras 等,托管服务 OctoML、Vertex AI 等。
d) 模型评估:一方面,在模型训练过程中,开发人员需要基于数据来驱动提示工程、超参数、微调等工作,相关工具包括 Statsig、 Comet、Mlflow 等;
另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括 WhyLabs、datadog等。
e) 应用部署:通过行业工具集将 AI 应用部署到实际应用环境中,例如Fixie 、Gradio 等框架,或者采取第三方厂商的服务来完成应用的部署实施。
整体来讲大模型厂商都配备了比较完善的工具集,帮助开发者完成大模型的一站式应用开发。
从应用范围的演进看,最早主要以大语言模型为核心应用,后期不断延伸到视觉、语音、代码和3D等方向,如今多模态应用时炙手可热的话题。
从行业商业化逻辑来讲,也从一开始2C订阅式应用,2B接口调用;逐步过度到2B行业级解决方案应用,AI大模型与行业数字化系统的结合将越来越紧密,与2C端应用相比,2B的增长潜力巨大。
我们在选择大模型应用方案时,在考虑采用公有云接口调用,还是私有化部署方案时,要尤为谨慎。尤其当自身的业务模式和业务发展不明朗,且企业内部研发资源有限的情形下,建议采用轻量级公有云的服务模式。很多特殊的业务形态例如政务、公安系统包括金融行业,对信息安全要求较高,会优先考虑私有化部署的模式。
接着我们来看看大模型的三大元能力:感知、决策和生成。
1)感知:对用户输入内容、周边环境状况的实时感知,未来进化方向会从单模感知变为多模感知融合,AI会逐步提升对人类需求理解能力。
2)决策:也有将这个能力称为‘分析’,但我更愿意称之为‘决策’;因为分析是过程,决策是结果。主要包含对信息和知识的检索、归纳与推理能力,未来进化方向会从‘感知智能’走向‘认知智能’。
3)生成:目前较为成熟的是文本生成,例如ChatGPT的能力;其中音频、图片、视频、3D等生成能力还在持续进化中,未来的发展方向为多模态生成能力。
基于三大底层元能力,未来的大模型应用将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要方向演进:
1) AIGC(内容生成):内容生成是生成式 AI 创造力得以展现的核心,包括文本、图像、视频、代码、3D 模型等。
其中文本生成已经广泛应用于教育、法律以及对话业务中;图像和视频生成和3D则被营销、影视创作、游戏等领域所应用。
2)Insight(知识洞察):生成式AI可以有效解决决策式AI数据样本稀疏的问题,基于大模型实现对数据、信息、知识进行充分整合,为用户提供精准的研究分析和辅助决策。
知识洞察将应用于制造、教育、金融、医疗、军事等领域。例如AI协助医生针对特定病灶进行洞察分析、针对诊断方案进行辅助决策。
3)Copilot(智能助手):Copilot是生成式AI应用最广泛的产品形态,主要是将AI能力嵌入具体应用场景中,让AI像小助手一样,主动理解用户意图并提供成型的方案。
例如微软的Office 365 Copilot系列,可以支持word文本内容生成,excel可视化图表,包括ppt智能排版,邮件自动回复等。
4) Agent(数字代理):相较于Copilot的工具型辅助能力,Agent更强调对环境的实时感知和判断能力,AI能像人类一样形成自己的独立决策及行动方案。
此外Agent更关注AI的独立性和场景泛化,能培养自适应学习能力和持续进化能力,目前主要应用在智能终端、智能座舱、汽车自动驾驶、工业机器人、人形机器人等领域。
看到这里,是否有点眼花缭乱了?
确实AIGC对行业和经济产生的影响面是巨大的。但显然这个过程也一定是循序渐进的,并且我们看到技术要素在突变的过程中,很有可能会影响产品形态以及商业模式的变化。
接着我们尝试从行业视角,来看看大模型对它们的具体影响。
大模型融入行业,主要分为通用领域和垂直领域。
其中通用领域包含AI工具、企业软件和智能硬件。垂直领域则包含像金融、教育、游戏、医疗等领域。我们先看行业通用的都有哪些大模型产品。
1) 最先融入行业的,实际上是一些通用的AI工具,它们没有行业知识库的限制,并且使用成本比较低,因此也会最先融入各大行业。
其次就是通用软件,尤其在数字化转型过程中已经被企业所引入的软件,它们会很自然集成AIGC能力,并形成面向B端的增值服务。
通用AI工具包括像ChatGPT这一类的聊天机器人,搜索引擎Bing Chat,文本工具Notion AI,AI绘画工具Stable diffusion,代码工具 GitHub,3D模型工具Magic3D,视频工具Imagen video等。
它们主要以AIGC和Copilot的产品形态出现,其中头部应用虽然实现了商业化(订阅式,或者按量计费),但明显已经过了飞速增长期,进入到增长瓶颈。
它们的核心问题是对底层基础大模型高度依赖,产品同质化程度很高。比如GPT4出现后,就对很多基础模型不如GPT4的工具应用进行了碾压式的打击。
如果你是一位工具AI的创业者,很明显要拥抱基础大模型的大腿,才可能有生存之地。再或者就是寻求差异化产品和场景定位,满足未被满足的市场需求,例如针对教师做一款教学工具。
2)第二类是以数字化为核心的通用软件,它们的商业进程比AI工具要慢,主要包括像Office 365 copilot(全流程办公),Salesforce的面向企业服务的管理软件(邮件生成、智能客服、营销推广等),类似Adobe Firefly(图片精修、草图或脚本生成动画)这样的创意软件,以及类似OutSystems(代码辅助开发、代码架构自动审查、安全性能审查)这样的软件开发工具,类似ServiceNow(案例总结、对话交流、代码生成)这样的IT运维软件。
它们的产品形态还是以Copilot为主,商业模式是订阅制和解决方案付费。从竞争模式来讲,他们对底层大模型依赖不如AI工具强,竞争力主要取决于AI能力与企业场景的深度融合,以及如何低成本高效率实现相似功能。
3)第三类就是智能硬件。因为正处在萌芽期,因此也是目前商业化进程最不明朗的方向。加上它的商业模式就是产品销售,因此大模型应用的投入产出比至今还是本糊涂账。但这并不妨碍大家对它的期许,目前主要包含智能汽车的无人驾驶,智能座舱,包括智慧家庭的智能硬件,人行机器人,工业领域的工业机器人等应用。
它的主要产品形态是Copilot和Agent。因为产品竞争力取决于硬件能力,模型和算法能力。例如以大模型为底座的语音助手目前已经在智能座舱、智能音箱、家用机器人等领域逐步应用。其中AI Agent在基础感知和决策能力上依旧存在技术瓶颈,要大规模推广还需要解决技术和成本问题。
整体来讲行业通用大模型产品的实现相对容易,它的难点在于如何降低成本,并做出产品差异化。
而接下来我要介绍的行业垂直应用,则非常依赖行业独有的领域数据,并且能否在特定领域取得爆发式增长,主要取决于切入场景的价值含量。
怎么评估大模型的场景应用价值呢?一般我们会选三个维度,第一:场景是否足够标准化,数据基础如何,能否进行大规模数据应用;第二:该场景是否需要大量人工作业,那么AI替代人工之后,能否提升作业质量;第三:人工作业和AI作业相比,能否达到降本提效。
头部大模型厂商基本都针对不同行业推出大模型解决方案,例如金融领域包含数据分析和知识洞察、智能投顾、智能风控等应用。医院领域包含药物研发、病例解析、智慧诊疗、手术机器人等应用。
教育行业包含语言学习、教学辅助、教育机器人等应用。工业领域包含研发设计、运维管理、生产制造、安全监控等应用。法律行业包含文书制作、法律咨询顾问、司法辅助等应用。游戏领域包含游戏开发、角色创作、场景生成等应用。
面向行业垂直应用的产品形态主要是Copilot和Insight,目前来看比较有前景的是以数据分析和知识洞察为核心的Insight应用,很多头部厂商也在开始构建属于自己的领域大模型。类似像医疗,教育和工业等领域,因为它们本身数字化进程比较慢,因此大模型的融入周期也会比较长。
参考资料:
《腾讯研究院:大模型时代的AI十大趋势观察》
《GPT_4v如何实现强大多模态,从文生图到图生文》
《全球生成式AI应用全景图》