模型训练核心:ChatGPT 中的 RLHF 人工反馈强化学习模式

目录

ChatGPT 的强化学习原理

Step0:预训练一个大规模语言模型

Step1:训练监督模型 SFT

你可能感兴趣的:(深度学习实战项目,chatgpt,人工智能,深度学习,自然语言处理,机器学习)