【chatGPT】

chatGPT(Generative pretrained transformer )
ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

ChatGPT的成功离不开多类技术的积累,其中最为核心的是RLHF,此外还有SFT、IFT、CoT这些技术:
Reinforcement Learning from Human Feedback (RLHF) RLHF方法是一种基于人类偏好的强化学习方法。它通过利用人们对对话代理回答的评价来改进对话代理的回答。RLHF方法可以根据人们的喜好对对话代理的回答进行排序,例如通过考虑人们喜欢的内容来选择文本摘要。这些评价的回答用来训练一个喜好模型,该模型将告诉强化学习系统如何评价回答的好坏。最后,通过强化学习训练对话代理来模拟这个喜好模型。整个训练过程包括对GPT-3进行监督微调,然后训练奖励模型,最后通过强化学习优化 SFT(监督下的微调模型)(第二步和第三步可以多次迭代循环)。SFT是(Supervised Fine-Tuning 模型)是一种预先训练的语言模型,经过对少量标签者提供的演示数据的细微调整,以学习一个监督策略(即 SFT 模型),可从选定的提示列表生成输出。

ChatGPT采用基于指令微调 (Instruction Fine-Tuning,IFT)的技术来模拟人类的聊天行为。IFT是一种能够追踪、学习和复述聊天会话历史的技术,并将其应用于在实时会话中对自然语言进行建模和推断。该方法除了使用情感分析、文本分类、摘要等经典 NLP 任务来微调模型外,还在非常多样化的任务集上向基础模型示范各种书面指令及其输出,从而实现对基础模型的微调。由此,ChatGPT能够发挥较大的自由度,提供更多样化的自然回复,玩家们可以与机器人无缝对话,体验自然聊天的乐趣。IFT还能够帮助ChatGPT进行语法检查,避免出现重复或无意义的语句,从而提升会话体验。

Chain-of-thought (CoT) 技术提示最早由谷歌在2022年1月提出来,是few-shot prompting (也被成为In Context Learning, ICL)的一种独特情形,它的目的是使大型语言模型能够更好地理解人类的语言请求。它通过在对话过程中不断提供上下文信息,来帮助模型理解语言请求的内容。这种技术可以使模型更准确地回答问题,并且可以帮助模型在处理复杂的对话任务时变得更加灵活。总的来说,CoT技术是为了改善大型语言模型的语言处理能力,使其能更好地理解人类语言请求。

根据OpenAI官方的文档,ChatGPT的构建大致包括如下三个步骤:

1)搜集对话数据,训练有监督的微调模型。人类标注员选择提示词并写下期望的输出回答,然后利用这些数据对一个预训练的语言模型进行微调,从而学习到一个有监督的微调模型(即SFT模型)。
2)搜集用于对比的数据,训练一个奖励模型(Reward Model)。这一步是为了模仿人类的偏好。标注员对SFT模型的大量输出进行投票,从而创建一个包含比较数据的新数据集。然后在此数据集上训练一个新模型,称为奖励模型(RM)。
3)搜集说明数据,使用PPO(Proximal Policy Optimization, 近端优化策略)强化学习来优化策略。利用奖励模型进一步微调并改进SFT模型,最终得到优化完毕的SFT模型。

  • chatGPT-3.5-Turbo

    在海量训练参数基础上加入人工标注与强化学习
    -随着机器学习算法的不断进步以及海量数据的可用性,自然语言处理(NLP)领域取得了巨大的进展。其中,GPT-3.5-Turbo是一种代表着重大突破的NLP模型。作为生成式语言模型,GPT-3可以根据上下文预测给定句子中的下一个单词,进而生成类似人类的文本。

    -GPT-3.5-Turbo还提供了开放API,这意味着任何人都可以使用它进行各种自然语言处理任务。这一功能为研究人员、开发人员和企业提供了巨大的灵活性和创新空间。通过利用GPT-3.5-Turbo,用户可以快速地构建自己的自然语言处理应用程序,并且不需要担心底层的复杂技术细节。

    -GPT-3.5-Turbo还具有一个独特的优势,即它可以自我学习、自我改进。这意味着随着时间的推移,它可以通过不断地接收新的数据和信息来增强自己的表现。这种能力被称为“元学习”,是近年来NLP领域研究的热点

你可能感兴趣的:(人工智能,自然语言处理,机器学习)