一文看透ChatGPT | ChatGPT调研分析与应用场域结合构想

作者：京东科技胡骏

摘要

1. ChatGPT调研分析

2022年11月30日，ChatGPT横空出世，在全球范围内形成了热烈的讨论。根据Similarweb的数据，今年1月，平均每天约有1300万独立访客使用 ChatGPT，是去年12月份的两倍多，累计用户超1亿，创下了互联网最快破亿应用的纪录，超过了之前TikTok 9个月破亿的速度。

2. ChatGPT共建效能提升

ChatGPT是一个文本对话的AI工具，功能非常强大，可以与它交流，它会提供反馈；可以产生作图的程序并进行图片差异比对；可以写代码，甚至修改错误的代码，它会成为人们办公的有力助手，提升工作效能。

3. ChatGPT赋能业务增长

随着ChatGPT Plus发布，商业化序幕已经拉开。ChatGPT在智能化、数字化、元宇宙以及数实共生助力产业升级等方面将产生极大助益，提升生产力曲线，多维度赋能业务创新和业务增长。

一、ChatGPT调研分析

1.1 市场概况

ChatGPT是由OpenAI团队研发创造，OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等人于2015年在旧金山创立的一家非盈利的AI研究公司，拥有多位硅谷重量级人物的资金支持，启动资金高达10亿美金；OpenAI的创立目标是与其它机构合作进行AI的相关研究，并开放研究成果以促进AI技术的发展。

2023年初，微软和谷歌均宣布裁员计划，但都加大了在AI行业的投入。

国内外科技巨头都非常重视ChatGPT引发的科技浪潮，积极布局生成式AI。

（图源：Tech星球）

1.2 发展路径

1.2.1 基本概况

1.2.2 ChatGPT的前世

ChatGPT的前世是GPT-3（Generative Pretrained Transformer-3），GPT-3是一种基于预训练的自然语言生成模型，是当前最大的语言生成模型。为了更好地处理对话任务，OpenAI在GPT-3的基础上改进了模型，并命名为ChatGPT，以适应对话应用领域的需求。

在Transformer模型诞生之前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。循环神经网络模型的优点是，能更好地处理有先后顺序的数据，比如语言。但也因为如此，这种模型在处理较长序列，例如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题（这是由于模型训练时的梯度消失或梯度爆炸现象而导致），以及训练模型时间过长（因必须顺序处理数据，无法同时并行训练）的问题。

2017年，谷歌大脑团队（Google Brain）在神经信息处理系统大会（NeurIPS，该会议为机器学习与人工智能领域的顶级学术会议）发表了一篇名为“Attention is all you need”（自我注意力是你所需要的全部）的论文。作者在文中首次提出了基于自我注意力机制（self-attention）的变换器（transformer）模型，并首次将其用于理解人类的语言，即自然语言处理。

Transformer模型能够同时并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。

Transformer模型自诞生的那一刻起，就深刻地影响了接下来几年人工智能领域的发展轨迹。短短的几年里，该模型的影响已经遍布人工智能的各个领域——从各种各样的自然语言模型、到预测蛋白质结构的AlphaFold2模型，用的都是它。

1.2.3 ChatGPT的今生

ChatGPT今生，它已经成为语言生成模型领域的一个重要代表，并在许多领域得到了广泛的应用，例如聊天机器人、问答系统、文本生成、文学创作等。它也在不断演进和改进，更好地适应人工智能领域的需求。

自美国时间12月2日上线以来，ChatGPT已经拥有超过一百万的用户。用户们在社交媒体上晒出来的对话例子表明ChatGPT这款模型与GPT-3类似，能完成包括写代码，修bug（代码改错），翻译文献，写小说，写商业文案，创作菜谱，做作业，评价作业等一系列常见文字输出型任务。ChatGPT比GPT-3的更优秀的一点在于，前者在回答时更像是在与你对话，而后者更善于产出长文章，欠缺口语化的表达。有人利用ChatGPT与客服对话，要回了多交了的款项（这或许意味着ChatGPT在某种意义上通过了图灵测试），或许ChatGPT能成为社恐人士的好伙伴。

1.3 原理分析

由于ChatGPT并没有放出论文，我们没法直接了解ChatGPT的设计细节。但它的blog中提到一个相似的工作InstructGPT，两者的区别是ChatGPT在后者的基础上针对多轮对话的训练任务做了优化，因此我们可以参考后者的论文去理解ChatGPT。

然而，InstructGPT的论文由25页正文和43页附录组成，所以本章并不试图去讲清包括训练策略在内的每个细节。为了保证梳理的完整性，参考了Youtube上的李宏毅和陈蕴侬老师，旨在讲清InstructGPT的改进思路，同时也参考了B站UP主弗兰克甜，试图转述他对ChatGPT的深刻理解。

根据上边的论文图片，我们可以知道InstructGPT的训练可以分为三个阶段：

利用人类的标注数据（demonstration data）去对GPT进行有监督训练，不妨把微调好的GPT叫做SFT；
收集多个不同（如4个）的SFT输出，这些输出基于同一个输入，然后由人类对这些输出进行排序并用来训练奖赏模型（RM）；
由RM提供reward，利用强化学习的手段（PPO）来训练之前微调过的SFT。

ps：一个需要补充的细节是，RM是会保持更新的，因此阶段2与阶段3其实是递交进行的。

如果不了解强化学习，关于阶段2可能会产生以下的疑问：

InstructGPT为什么要做这样的改进，或者说它的novelty是什么？
为什么要训练一个RM，这个奇奇怪怪的RM为什么能用来充当奖赏函数？
人类对模型的多个输出做个排序，为什么就能够提供监督信号，或者说在训练RM时如何怎么做到loss的梯度回传？

第一个问题其实在ChatGPT的blog中也有回答。这两个模型的改进思路，都是尽可能地对齐（Alignment）GPT的输出与对用户友好的语言逻辑，即微调出一个用户友好型GPT。以往的GPT训练，都是基于大量无标注的语料，这些语料通常收集自互联网。我们都知道，大量“行话”“黑话”存在于互联网中，这样训练出来的语言模型，它可能会有虚假的、恶意的或者有负面情绪等问题的输出。因此，一个直接的思路就是，通过人工干预微调GPT，使其输出对用户友好。

为了回答第二个问题，其实要稍微拓展下强化学习相关的一些研究。我们都知道，经典的强化学习模型可以总结为下图的形式：

具体来说，智能体（Agent）就是我们要训练的模型，而环境是提供reward的某个对象，它可以是AlphaGo中的人类棋手，也可以是自动驾驶中的人类驾驶员，甚至可以是某些游戏AI里的游戏规则。强化学习理论上可以不需要大量标注数据，然而实际上它所需求的reward存在一些缺陷，这导致强化学习策略很难推广：

reward的制定非常困难。比如说游戏AI中，可能要制定成百上千条游戏规则，这并不比标注大量数据来得容易。
部分场景下reward的效果不好。比如说自动驾驶的多步决策（sequential decision）场景中，学习器很难频繁地获得reward，容易累计误差导致一些严重的事故。

为了解决这些问题，模仿学习（Imitation Learning）应运而生。模仿学习的思路是不让模型在人类制定的规则下自己学习，而是让模型模仿人类的行为。有的人可能会疑惑，这与监督学习有什么异同吗？相同点在于都要收集人类的标注数据，不同点在于模仿学习最终是以强化学习的形式进行的。简单来说，模仿学习将强化学习的Environment替换成一个Reward Model，而这个RM是通过人类标注数据去训练得到的。

在回答了第二个“为什么要训练RM”的问题后，就要接着回答“如何训练RM”。如下图，训练RM的核心是由人类对SFT生成的多个输出（基于同一个输入）进行排序，再用来训练RM。按照模仿学习的定义，直观上的理解可以是，RM在模仿人类对语句的排序思路，或者按照OpenAI团队论文《Learning from Human Preferences》的说法是，模仿人类的偏好（Preference）。那么到底是如何模仿的呢，或者说如何实现梯度回传？

这里我们代入一个场景。如上图，SFT生成了ABCD四个语句，然后人类对照着Prompt输入来做出合适的排序选择，如D>C>A=B。这里的排序实质是人类分别给四个语句打分，比如说D打了7分，C打了6分，A和B打了4分。为了让RM学到人类偏好（即排序），可以四个语句两两组合分别计算loss再相加取均值，即分别计算个loss。具体的loss形式如下图：

需要说明的是，是Prompt输入，是SFT的输出，是RM的输出。其中总是语句组合对中打分更高的，反之。通过这种形式的梯度回传，RM逐渐学会了给D这类语句打高分，给AB这类语句打低分，从而模仿到了人类偏好。

参考资料链接：

• https://arxiv.org/abs/2203.02155

• https://it.cha138.com/ios/show-52413.html

• https://www.bilibili.com/video/BV1zW4y1g7pQ/

• https://www.youtube.com/watch?v=e0aKI2GGZNg

• https://www.youtube.com/watch?v=ORHv8yKAV2Q

1.4 强大功能

ChatGPT的强大功能，来自大规模预训练——它有3000亿单词的语料库预训练，有1750亿参数的数据模型，这使得ChatGPT能够根据预训练给它的提示，生成旨在处理各种包括语言翻译、问答和文本摘要在内的任务，生产出类似人类的文本，进而形成语言生成、上下文学习、常识和逻辑推理等多方面的能力。

它具有主动承认错误并听取意见优化答案、质疑不正确的问题、以及支持连续多轮对话的特征，这些功能特征极大提升了对话交互模式下的用户体验。

按照开发者初衷，ChatGPT将繁琐和耗时的任务进行自动化生产，人类能被解放出来专注于更关键的任务。它还可以产生原创内容和想法，并帮助研究和开发新产品和服务。

1.5 问题挑战

1.5.1 监管难题

ChatGPT将产生新的道德和法律问题：人工智能模型的学习基于历史数据进行，这个过程很可能存在不必要的“偏见”，进而可能导致社会排斥、歧视以及其他违规行为。

技术本身是中立的，但伴随ChatGPT在全球的流行，网络黑客已经开始利用ChatGPT批量生成勒索软件与恶意代码，并进行信息窃取等活动。

有研究者认为，开发者们的偏见导致算法延续种族、性别和文化上的偏见已经显现，比如让ChatGPT创作歌词，其回答中会包含「有色人种的女性和科学家不值得你花时间关注」，而人工智能面临的版权、隐私和诽谤等问题也将在未来显现。

• 美国纽约市颁布ChatGPT禁令，老师和学生无法在市公立学校的网络和设备上使用ChatGPT。洛杉矶和巴尔的摩的学区也加入到禁令队伍。

• 国际机器学习会议ICML 2023宣布禁止使用大规模语言模型（如ChatGPT）生成论文的内容，除非这些文本是实验分析的一部分。

• Nature杂志明确了学术论文中使用AI写作工具的规定，任何大型语言模型工具（如ChatGPT）都不能成为论文作者；若论文创作中使用相关工具，需明确说明。

• 《科学》杂志不接受使用ChatGPT生成的投稿论文，同时不允许ChatGPT作为论文合著。

• 《细胞》和《柳叶刀》表示论文作者不能使用AI工具取代自己完成关键性任务，作者还必须在论文中详细解释是如何使用这些工具的。

1.5.2 失业问题

ChatGPT的出现，为更多工作重复、低技术含量的服务工种，敲响了丧钟。

在制造业领域，人工成本的上限将来可能会被AI和自动化机器人锁死。

在ChatGPT这样的AI冲击下，受影响最大自然是没有受过专业教育的劳动者。

但是，ChatGPT作为一个机器学习模型，虽然有很高的准确率，并不能保证它的回答是100%的正确。

但是，AI的应用并不是为了抢人的饭碗，而是以AI的成本为基点，为人工的成本划定了一个上限；未来，随着AI进一步地快速发展，可能成为中低端劳动者的用工成本上限。

总结：AI不会取代你，一个使用AI的人将取代你。

二、ChatGPT共建效能提升

2.1 智能客服

**ChatGPT 可以快速地解答用户问题：**借助大量的数据和人工智能算法来识别用户问题，并迅速地解答。

**ChatGPT 可以提高回复的质量：**借助人工智能算法识别出用户诉求，并在回答问题时使用专业的知识和语言。

**ChatGPT 可以节省人工客服的时间和资源：**由于可以快速识别用户问题进行精准解答，人工客服就不必再花费太多的时间处理简单的问题。这样，人工客服就可以把更多的时间和精力用于处理更复杂的问题。

**ChatGPT 具有良好的扩展性和演进性：**随着技术的不断发展，ChatGPT可以学习更多的数据和知识，不断提高回复速度和质量。因此，它有望在未来成为客服行业的重要助手。

在客服行业，人工智能已经成为不可忽视的力量。ChatGPT 的出现，将推动客服行业的技术革新，提高用户的满意度，为客服行业的发展带来新的机遇。

2.2 UI制作和走查

通过ChatGPT生成预设颜色和大小的UI Banner图。

探索运用ChatGPT对数十亿张图片的自学习能力，通过文本描述生成2D/3D的虚拟形象，并自带动效。

使用ChatGPT强大的AI计算能力，辅助设计师对前端研发的H5页面进行UI走查。

2.3 研发代码辅助

ChatGPT的训练集基于文本和代码，新增代码理解和生成的能力。

ChatGPT的优势在于自身强大的逻辑推理能力，是算力和虚拟训练的结合，通过对训练数据的统计发现所蕴含的规律，将代码进行重构更有逻辑性和规范性。

从ChatGPT可以帮助程序员写代码不难看出，它比普通搜索引擎更加强大的地方在于，它不仅仅是直接检索问题的答案，甚至可以整合已知知识，通过函数逻辑进行逻辑推理得出结论。

运用ChatGPT可以节省软件代码编写时间，也可以帮助程序员解决一些简单的代码编写工作，减少代码编写时间，提高软件开发工作效率。

三、ChatGPT赋能业务增长

3.1 数字人

数字人+ChatGPT=人机交互新入口

ChatGPT的核心功能是自主学习能力、高智慧交互的能力和颠覆性的语义理解能力，如果这些特质在数字人身上体现，将会出现怎样有趣的变化？

首先，鉴于ChatGPT在用户语言逻辑理解上的深化，可以显著提高数字人在场景应用中的识别感知能力和分析决策能力。在涉及到数字人与用户沟通的应用场景上，可以更准确地满足用户个性化需求，成为连接品牌与用户的关键桥梁。

其次，AI的高生产力可能取代大量基础性创作，大幅降低内容制作成本，极大地减少人力。比如，数字人在播报新闻、客服答疑、直播带货等场景中，能通过ChatGPT应用程序提前下达相关内容诉求，通过搜索筛选后实现数字人后台内容的自动化编排，以实现自然语言的多轮对答、高效的精准问答。

以ChatGPT模型为代表的AIGC让拥有“好看的皮囊”和“有趣的灵魂”将不再是设想，它更是AI技术的一次革新。据市场调研机构IDC数据，预计到2026年中国AI数字人市场规模将达到102.4亿元，市场将呈现高速增长态势。而ChatGPT的出现则给了由AI驱动的数字人更多想象空间。未来，在ChatGPT加持下的数字人将与各行业深度融合，优化生产制造的不同环节。AI数字人将成为企业的数字员工，成为企业进行数据分析、降本增效、数字化转型过程中不可替代的重要帮手。

3.2 用户体验

ChatGPT这类AI技术可以改善行业的用户体验、提高交互性能、帮助实现更精准的消费者识别和内容推荐等。在界面设计方面，它可以根据用户的历史行为，提供更具个性化和智能化的界面。它还可以分析用户的行为和购买模式，以提高收入和盈利模式。另外，ChatGPT还可以使用大数据和机器算法来提高市场分析的准确性，从而改善行业的运营效率。

ChatGPT能通过自然语言处理技术来分析用户的行为，根据不同情况、不同平台，为用户提供更为个性化、便捷化的体验。比如，更个性化的界面、信息流视频，呈现用户更喜欢的内容，或者把画面色彩、音响调节到更和谐、更适合观看时间、用户本人更喜欢的设置。

此外，ChatGPT若结合机器学习、自然语言处理，甚至虚拟现实等黑科技，将可实现更好的用户体验和用户定制内容。

3.3 元宇宙

元宇宙是5G通信、人工智能、机器人、互联网、区块链等众多先进技术聚合下，形成的新的数字生态。ChatGPT与元宇宙具有很多共同性，都需要强大的数据、算力和算法支撑，人工智能技术有利于元宇宙更好地促进人与人之间、人与机器之间、机器与机器之间的交互。

ChatGPT的出现为所有人提供了以自然语言对话方式进行文本生成的新方式和新工具，起到了加速内容生产、增强内容呈现、提升内容分发等功能，极大程度上降低了元宇宙的门槛。以ChatGPT为代表的生成式人工智能高速演进，为元宇宙的构建提供了高效的内容生产工具，有望助推元宇宙的发展。

据《时代》1月27日报道，元宇宙的从业者们已经开始使用ChatGPT这样的生成式人工智能进行创作，输入问题后，人工智能可以快速输出相关的文本和图像，从而帮助创业者来构思如何设计元宇宙。

搭建自己的元宇宙世界时，必须具备着极大的浪漫想象能力，因为元宇宙世界必须充满着丰富的景观、物体和建筑细节。而此时，可以借助ChatGPT等人工智能技术来使用文本提示来构建这些环境，逐渐搭建出一个关于元宇宙总体框架，并创建出每一个普通用户都愿意花时间沉浸在其中的浪漫世界，加速世界向Web3.0的转变。

•本文章主要基于公开资料，本着独立、客观、审慎的态度，对相关案例、数据及趋势进行梳理和分析

•本文章包含第三方数据或案例，但是不保证从任何第三方获得的数据或案例的绝对完整性和准确性