浅谈ChatGPT [AI生成]

简介

ChatGPT是一种基于GPT-3.5的大型语言模型聊天机器人,由OpenAI开发。它具有惊人的对话交互能力,能够提供看起来非常人性化的回答。大型语言模型的任务是预测一系列单词中的下一个单词。

来源

ChatGPT最初是使用GPT-3.5语言模型构建的。这个聊天机器人的基础是一个神经网络,它直接从互联网上获取数据来生成回答。ChatGPT是从2022年初完成训练的GPT-3.5系列中的一个模型进行微调的。ChatGPT和GPT-3.5都是在Azure AI超级计算基础设施上进行训练的。

技术

ChatGPT使用强化学习从人类反馈(RLHF)进行训练,使用与InstructGPT相同的方法,但在数据收集设置方面有细微差别。首先,使用监督式微调训练了一个初始模型:人工智能培训师提供了他们扮演双方(用户和人工智能助手)的对话。我们给培训师提供了由模型编写的建议,以帮助他们组成回答。我们将这个新的对话数据集与InstructGPT数据集混合在一起,将其转换为对话格式。

为了创建强化学习所需的奖励模型,我们需要收集比较数据,这些数据包括由质量排名的两个或多个模型回答。为了收集这些数据,我们采用了AI培训师与聊天机器人进行的对话。我们随机选择一个由模型编写的消息,采样几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型。我们进行了几次这样的过程。

优点 & 局限性

ChatGPT有以下优点:

  • 它可以回答后续问题
  • 它可以承认自己犯错
  • 它可以挑战错误前提
  • 它可以拒绝不恰当请求

但也有以下局限性:

  • ChatGPT有时会写出看似合理但错误或无意义的答案
  • ChatGPT对输入措辞或多次尝试相同提示很敏感
  • ChatGPT经常过度冗长,并过度使用某些短语

你可能感兴趣的:(人工智能,chatgpt)