一步步解析ChatGPT:从头训练或者微调GPT模型,实现差异化AI助手的定制

一 起因

其实现在大语言模型能够发展起来的起因就是现如今有了许多高质量料库,可以对模型进行训练。然而,这些语料库都是开源,因而对应模型训练的结果也都是一样的。那么,我们该如何从头训练或者微调自己的模型,生成极具个性化的AI助手或者写作助手呢?

二 正文

当然,本文其实无法做那么深入的从头训练和微调模型的解析。一方面,这种微调和训练需要非常强的专业知识和高端的硬件支持。笔者作为一个生信分析方面的研究人员,两者都没有,硬件的话目前也就是有一个3060Ti而已,所以只能做到初级的微调。不过,随着开源社区的进一步发展,相信未来的微调或训练都将不停留在专家级,而是像现在的许多深度学习算法一样,可以自动微调。

下面将从语料库,模型,训练代码和输出结果四个环节依次介绍。

2.1 语料库下载

既然我们要从头训练或者微调模型,那么我们需要先实现准备好语料库,并进行处理。这里我们使用的语料库是来自PMC

具体介绍为:欧洲PMC作者手稿合集由作者手稿形式的文章组成,这些文章已按照欧洲PMC资助者政策以及美国国立卫生研究院(NIH)和其他参与PMC的资助者的公共访问政策,在欧洲PMC和PubMed Central (PMC)上提供。文集中的手稿文本可以 XML 和纯文本格式下载。 

https://europepmc.org/downloads/manuscripts

2.2 语料库处理

实际上,语料库才是GPT训练的核心,如何获得一个足够高质量的语料库是许多大模型所面临的一个最重要的考验。因为无论是互联网上的,还是各类文本资料,实际上都需要对语料库进行清洗、过滤,筛选

你可能感兴趣的:(AIGC-ChatGPT,人工智能,chatgpt,gpt)