人工智能行业深度报告:AI下半场,应用落地,赋能百业

一、大模型行业发展现状及前沿技术观察
1.1 大模型行业发展现状

2022 年 11 月底,OpenAI 发布了人机对话模型 ChatGPT,在两个月不到的时间内其线上活跃用户规模超 过 1 亿人,生成式大模型受到越来越广泛的关注,人工智能行业进入到以大模型为代表的快速发展阶段,巨量 参数和智能涌现是这一轮人工智能变革的典型特征。微软、谷歌、Meta、亚马逊等全球科技巨头将大模型视为 重要的发展机遇,在生成式大模型领域加速布局,积极投入且成果频频。我国的众多互联网厂商和人工智能企 业也积极投身到大模型领域中,百度、讯飞、阿里、华为、腾讯、商汤等企业也在快速更迭自己的大模型,同 时高校、科研院所也积极投身大模型产业,取得了显著成果。

1.1.1 国内外大模型发展情况

国外大模型起步相对较早,2021 年进入到快速发展期。2017 年 Transformer 模型的诞生可以被视为大模型 行业的开端,谷歌、OpenAI、微软、英伟达等大型科技企业引领了早期的技术探索,在 2020-2021 年间逐步确 立了大模型的整体技术路径,国外大模型行业开始加速发展。根据赛迪顾问数据,截止 2023 年 7 月底,国外大 模型累计发布 138 个,其中美国发布 114 个,大模型数量大幅领先。从 2020 年起,更多国家的企业和科研单位 逐步加入到大模型的研发中,韩国、日本、法国模型数量位列美国之后。国外已发布的大模型主要集中在自然 语言和多模态两类,其中自然语言占比 68%,多模态占比 18%,其他类型大模型合计占比 14%。


在大模型产业领域,中国紧跟国际前沿。2021 年起,中国也开启了大模型的发布热潮,涌现出一批有代表 性且具备影响力的大模型。受 ChatGPT 影响,国内大模型在 2023 年进入到高速发展阶段,一时间呈现“百模 大战”局面。根据赛迪顾问, 截止 2023 年 7 月底,中国累计发布了 130 个大模型,其中 64 个大模型是在 2023 年年内发布。国内大模型技术分布基本与海外一致,65%的大模型集中在自然语言领域,22%的大模型集中在多 模态领域。

1.1.2 国外大模型行业发展现状

OpenAI:模型性能一骑绝尘,引领大模型行业发展趋势

2022 年底 ChatGPT 引爆社交网络,人工智能行业进入到以大模型为主的快速发展阶段。OpenAI 在 GPT-3.5 版本的基础上,通过 3 个步骤实现基于人类反馈的强化学习微调(RLHF),得到人机对话模型 ChatGPT。通过 与人类答案的对齐过程,显著提升了大模型的人机对话体验。 GPT-4 具备卓越的文本处理能力,初步融合多模态能力,能力再度升级。2023 年 3 月 15 日,OpenAI 发布多模态预训练大模型 GPT-4,相较于过去的 GPT 系列模型,提升包括几个方面,GPT-4 相较于 ChatGPT 有更强 的高级推理能力,相较于过去的 GPT 系列模型,GPT-4 在更多应用领域成为专家,包括为机器学习模型评判标 准和为人类设计的专业测试,从“百科全书”逐步成为文理通吃的“专家”。 GPT-4 在可控性和真实性方面较 ChatGPT 有大幅提升。

2023 年 9 月 25 日,OpenAI 再度开放了带视觉能力的 GPT-4V,用户能够指导 GPT-4 分析用户提供的 图像。在输入 GPT-4V 支持格式方面,其支持处理图像、子图像、文本、场景文本和视觉指针(visual pointers) 等多种输入。此外,GPT-4V 还支持 LLMs 中支持的技术,包括指令跟随、思维链和上下文少样本学习等。 GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性共同使 GPT-4V 成 为强大的多模态系统。 11 月 7 日,OpenAI 首次开发者大会发布了最新模型 GPT-4 Turbo,其作为一个标准化的 AI Agent,初 步具备了规划和工具选择的能力,可以自动选择接入互联网、进行数据分析、图像生成等诸多功能,真正 进化为了统一智能体。除了标准化的 GPT-4 以外,定制版的 GPTs 可以为用户在日常生活、特定任务、工 作或家庭中提供帮助,用户无需编写代码就可以创建属于自己的定制化的智能助理,诸多定制化的 GPTs 的使用体验显著优于 GPT-4,GPTs 开启了一个全民定制个人智能助理的浪潮。OpenAI 同时还将推出 GPT store 和 Assistants API,不断打造 GPTs 开发者生态。

Google:深度学习研究的引领者,AI 技术产业落地先行者

在上一轮深度学习的 AI 革命中,AI 逐步达到了与人类媲美、甚至超越人类(部分场景)的水平,逐步走 入大众视野,而 Google 和 Deepmind 是其中的的引领者。由 Google 和 Deepmind 提出的 Word2Vec、AlphaGo 等模型以及 sequence to sequence、深度强化学习等技术是上一轮 AI 革命乃至这一轮 AI 浪潮的开创性、奠基性 工作,推动着 AI 技术的成熟与发展。在这一轮预训练大模型的 AI 浪潮中,AI 展现出在更多具体场景中强大的 应用性能,逐步从学术研究走向商业化落地。 Google 在 2022 年 4 月推出了 PaLM 模型,其具有 5400 亿参数,基于 Transformer 的 Decoder 设计,PaLM 模型在多个下游任务中具有优异性能。5 月 11 日,Google 在最新一届 I/O 开发者大会上官宣大语言模型 PaLM 2,称其在部分任务上超越 GPT-4。PaLM 2 在超过 100 种语言的多语言文本上进行了训练,这使得它在语言理 解、生成和翻译上的能力更强,并且会更加擅长常识推理、数学逻辑分析。PaLM 2 在大量公开可用的源代码 数据集上进行了预训练,这意味着它擅长流行的编程语言,如 Python 和 JavaScript,但也可以用 Prolog,Fortran 和 Verilog 等语言生成专门的代码。

目前谷歌的聊天机器人 Bard 以及超过 25 个 AI 产品和功能,都由 PaLM 2 作为底层技术支持。具体的表现 之一是 Duet AI,一款类似于微软 365 Copilot 的产品、能够内嵌在各种办公软件中的 AI 助手。基于 PaLM 2, 谷歌还推出了两个专业领域大模型。一个是谷歌健康团队打造的 Med-PaLM 2。另一个专业大模型是面向网络安 全维护的 Sec-PaLM 2,它使用人工智能来帮助分析和解释潜在恶意脚本的行为,并在非常短的时间内检测哪些 脚本对个人和组织构成威胁。

META:通过开源 LLaMa 等大模型,引领大模型开源生态

LLaMA:2023 年 2 月 25 日,Meta 官网公布了一个新的大型语言模型 LLaMA(Large Language Model Meta AI),从参数规模来看,Meta 提供有 70 亿、130 亿、330 亿和 650 亿四种参数规模的 LLaMA 模型,并用 20 种 语言进行训练。Meta 推出的 LLaMA 参数规模有 70 亿(7B)、130 亿(13B)、330 亿(33B)和 650 亿(65B) 四种。LLaMA-13B 在大多数基准测试中,参数仅为十分之一,但性能优于 OpenAI 的 GPT-3(175B),而且能 跑在单个 GPU 上。LLaMA-65B 与 DeepMind 700 亿参数的 Chinchilla-70B 和谷歌 5400 亿参数的 PaLM-540B 不 相上下。

LLaMA2:2023 年 7 月 19 日,Meta 发布了免费商用版开源大模型 LLaMA2,各个企业能够以相对低廉的 价格在该模型上开发应用,为客户提供自主的大模型。Meta 发布的 LLaMA 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体,训练数据采用了更新之后的混合数据,模型方面采用文本输入与文本输出,预训练模型 在2万亿token上进行训练,训练token总数相较于LLaMA 1增加了40%。LLaMA 2学术基准测试优于LLaMA1, 专业场景中能力进一步提升。公布的测评结果显示,LLaMA 2 在包括推理、编码、精通性和知识测试等方面均 优于相近训练参数下的 LLaMA 1。LLaMA 2 模型最大的变化除了性能提升,还体现在 B 端可以助力企业开发自 己的大模型,C 端可以丰富 AIGC 应用,改变了以往大模型由多家科技巨头垄断的格局,AI 应用实现加速落地。 目前,用户已经能够在 Azure 平台上微调和部署 7B、13B 和 70B 参数的 LLaMA 2 模型。

Meta 与微软达成合作,联手推动 AI 应用的商业化落地。Meta 正式开源了 LLaMA 2 版本,可免费用于商 业用途,微软宣布携手。最新版本的模型将在微软的 Azure 和 Windows 平台上线并开源,用户可以在云服务中 使用 Llama 2 作为基础模型,快速构建适用于自身业务的专用大模型。目前,用户已经能够在 Azure 平台上微 调和部署 7B、13B 和 70B 参数的 LLaMA 2 模型。未来,LLaMA 将进行优化,以在 Windows 上本地运行。

1.1.3 国内大模型发展现状

百度

从 2010 年的百度搜索开始,百度成立了自然语言部门,初步研究互联网机器翻译技术,2013 年推出百度 语音助手,2014 年推出智能搜索小度机器人,2017 年推出智能客服。在长期的布局和发展中,百度构建了完整 的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻 译、对话系统、智能写作、深度问答等在内的的应用系统。 2023 年 3 月 16 日,百度发布了生成式人工智能大模型“文心一言”。作为文心大模型家族的新成员,文心 一言在文心知识增强大模型 ERNIE 及对话大模型 PLATO 的基础上研发。文心一言包含六大核心技术模块,包 括:1)有监督精调;2)基于人类反馈的强化学习;3)提示;4)知识增强;5)检索增强;6)对话增强,前 三类技术在目前流行的对话大模型如 ChatGPT 中都有所应用,而后三类技术则是百度基于自身技术积累的再创 新,它们共同构成了模型的技术基础。

2023 年 5 月,百度文心大模型 3.5 版本已内测可用,在基础模型升级、精调技术创新、知识点增强、逻辑 推理增强、插件机制等方面创新突破,取得效果和效率的提升。2023 年 8 月 31 日,文心一言率先向全社会全 面开放。9 月 13 日,百度发布文心一言插件生态平台“灵境矩阵”。文心一言面向全社会开放至百度世界 2023 大会召开期间,40 多天的时间,文心一言用户规模已经达到 4500 万,开发者 5.4 万,场景 4300 个,应用 825 个,插件超过 500 个。 2023 年 10 月 17 日,百度世界大会上正式发布文心大模型 4.0。与原有的 3.5 版本相比,具有以下优势:1) 更强的模型能力和图片生成能力。根据测试,文心大模型 4.0 版本在理解、生成、逻辑、记忆四大功能上都有 明显提升,具有显著优化的模型性能。2)支持接入丰富的 API 插件,可以实现撰写代码、润色文案、设计与绘 图等多种功能。

文心一言成为首个国内面向 C 端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费 模式。单独订阅模式下,会员月付 59.9 元,选择连续包月可以享受 49.9 元的优惠价格;该模式下会员可以使 用文心一言大模型 3.5 和 4.0 两个版本,而非会员只可使用免费的文心大模型 3.5 版本。联合模式下,用户月 付 99 元,可以同时具有单独订阅模式的全部功能,并获得文心一格白银会员资格,享受 AI 修图改图等功能。

科大讯飞

随着大语言模型爆火网络,公司自主研发了对标 ChatGPT 的星火大模型。星火大模型是基于深度学习、 以中文为核心的自然语言大模型,在跨领域多任务上具备类人的理解和生成能力,可实现基于自然对话方式的 用户需求理解与任务执行。 公司大模型不断迭代进步,能力实现全方位提升。2022 年 12 月 15 日,科大讯飞启动了“1+N 认知智能大 模型专项攻关”。2023 年 5 月 6 日,讯飞推出星火认知模型的 1.0 版本,七大核心能力发布,同时发布大模型评 测体系。6 月 9 日,星火升级至 1.5 版本,突破开放式问答、多轮对话能力和数学能力;8 月发布 2.0 版本,实 现多模态能力,同时代码能力显著提升。

星火 3.0 全面对标 ChatGPT。10 月 24 日,星火推出 3.0 版本,在语义理解、时效把握、代码生成能力等 基础功能上都有很大提升;在时空感知能力上表现突出;专业性能力基本无实时性错误,尤其医疗能力水平,可以给出适时的诊疗提醒。全面对标 chatGPT,中文能力客观测评超过 ChatGPT,英文能力对标 ChatGPT48 项 任务结果相当。根据国务院发展研究中心经济研究院测评报,星火大模型 3.0 综合能力达到国际一流水平,在 医疗、法律、教育行业表现突出。讯飞同时发布十二个行业大模型,涵盖金融、汽车交互、运营商、工业、传 媒、法律、政务、科技文献、住建、物业、文旅、水利十二个领域。讯飞正式启动对标 GPT-4 的大模型训练, 2024 年上半年对标 GPT-4。

智谱

智谱 AI 致力于打造新一代认知智能大模型,专注于做大模型的中国创新,通过认知大模型链接物理世界的 亿级用户。基于完整的模型生态和全流程技术支持,智谱 AI 一方面重视研发超大规模训练模型,并基于此推出 对话模型 chatGLM;另一方面践行 Model as a Service(MaaS)的市场理念,推出大模型 MaaS 开放平台。 2023 年 3 月 14 日,ChatGLM1.0 开启邀请制内测。ChatGLM 参考 ChatGPT 的设计思路,在千亿基座模型 GLM-130B 中注入代码预训练,通过监督微调等技术实现人类意图对齐,具有支持双语、高精度、快速推理、 可复现性和跨平台等优势。同期开源的还有具有 62 亿参数、支持中英文双语对话的 ChatGLM-6B,虽然规模不 及千亿模型,但大大降低了推理成本。 2023 年 6 月 27 日,第二代 ChatGLM 正式发布。在保留初代模型对话流畅、部署门槛低的基础上引入更加 强大的性能、允许更多轮次的对话和更长的上下文、进行更高效的推理、允许更开放的协议。2023 年 7 月 15 日,智谱 AI 宣布 ChatGLM 允许免费商用。


商汤科技

商汤科技拥有深厚的学术积累,并长期投入于原创技术研究,不断增强行业领先的多模态、多任务通用人 工智能能力,涵盖感知智能、自然语言处理、决策智能、智能内容生成等关键技术领域。2023 年 4 月 10 日, 商汤 SenseTime 举办技术交流日活动,分享了以“大模型+大算力”推进 AGI(通用人工智能)发展的战略布局, 并公布了商汤在该战略下的“日日新 SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标 注、自定义模型训练等多种大模型及能力。 依托自研千亿级参数自然语言模型,商汤科技 4 月 10 日发布了中文语言大模型应用平台“商量 SenseChat”。 "商量SenseChat"是由商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型,具备较强的语言理解、 生成能力,可以解决复杂问题,提供定制化建议,还能辅助创作文本,同时具备不断学习进化的特性。 7 月 7 日,“商量 SenseChat”迭代至 2.0 版本,其基模型为商汤联合多家国内顶级科研机构发布的书生·浦语 InternLM-123B,拥有 1230 亿参数,在语言、知识、理解、推理和学科五大能力上均处于行业领先水平。

1.1.4 大模型行业整体发展评述

国外大模型发展趋势: 美国人工智能企业引领行业发展。美国 OpenAI 的基础大模型性能领先,目前已经在基础大模型上开始快 速构建开发生态,Google 也在发力追赶过程中,Meta 通过开源大模型构建开源生态。美国在研发能力、人才储 备、算力支持方面仍然占据一定优势。我们预期,海外大模型将沿着多个维度持续演进。

更大的参数量、更多的训练文本依旧是大模型的主要发展路径。 OpenAI 论文《Scaling Laws for Neural Language Models》中提出著名的缩放法则,缩放法则中提到模型表 现和规模强相关,和模型的 shape 弱相关:规模包括模型参数量 N、数据集大小 D 和计算量 C,模型 shape 指模 型 depth、width、number of self-attention heads。Palm-2 technical report 中提到,训练数据量和模型参数量大小保 持同比例增长是最优组合。 目前最先进的大模型 GPT-4 仍然高度符合缩放法则,简而言之,模型越大性能越好,训练的数据量越大模 型性能越好,这条法则仍然成立。通过单纯的增加模型参数量和训练数据量就可以实现更好的模型性能,可以 预期,在短期之内,不断增加模型参数量依旧是提升模型性能的主要手段。

更多的模态到来,开启全新的多模态时代。 文本、语音、图片等单模态人工智能模型已经相对成熟,大模型正在朝着多模态信息融合的方向快速发展。 图文多模态技术已经取得了显著的进步,未来大模型不止满足文字和图像,开始向着音频、视频等领域拓展。

大模型的逻辑思维能力可能看到飞跃式提升。 大语言模型在文本的理解和生成上表现出色,但是涉及到数理逻辑推理时表现仍然有待提升。通过思维链、 思维树的提示词工程设计,大语言模型能够将大型任务分解为较小且易于管理的子目标,内部的逻辑一致性显 著增长,从而高效地处理复杂任务。

AI Agent 将成为我们接触大模型的主要媒介。AI Agent 是有能力主动思考和行动的智能体,它们能够使用传感器感知周围环境,做出决策,然后使用执 行器采取行动,甚至与别的 agent 合作实现任务。OpenAI 应用研究主管 LilianWeng 提出了 AI Agent 的重要组成 公式:Agent =大语言模型(LLM) + 规划能力(Planning) + 工具(Tool) + 记忆(Memory)。AI Agent 相 比大语言模型的提升在于:与环境交互、个性化记忆、主动决策、合作机制。在生成式 AI 的不同应用等级中, AI Agent 是比聊天机器人更高层级的应用形态。

国内大模型发展趋势: 国内大模型行整体依旧处于跟跑状态&#

你可能感兴趣的:(人工智能)