612万
个样本,每个样本有512个tokens,总共相当于大约31亿个tokens
需要准备好环境,也就是安装需要的包
pip install -r requirements.txt
像是pytorch
这种基础的包肯定也是要安装的,就不提了。
统计学人
】,然后回复【gpt2
】即可获得。31亿个tokens
),在一张3090上,训练了60多小时).csv
格式的文件。其中有一列数据是content
content
就代表一句话,截图如下datasets
glob
包就能完成。train_chinese_gpt2.ipynb
tokenizer
、gpt2_model
、Trainer
tokenizer
使用的是bert-base-chinesebos_token
、eos_token
、pad_token
。gpt2_model
使用的是gpt2,这里的gpt2我是从0开始训练的。而不是使用别人的预训练的gpt2
模型。Trainer
训练器使用的就是transformers
的Trainer
模块。(支撑多卡并行,tensorboard等,都写好的,直接调用就行了,非常好用)infer.ipynb
这个是chinese-gpt2
的推理代码
model_name_or_path = "checkpoint-36000"
里面的"checkpoint-36000"
,修改为模型所在的路径。chatbot.py
model_name_or_path = "checkpoint-36000"
python chatbot.py
huggingface
文档、教程度过来的.Tokenizer
改成中文的了,然后也整理了数据,别的大部分东西,都不是我做的了.其实,我更喜欢做应用,但是也要理解相关的背后原理,目前还在研究相关的gpt2原理还有相关的推理细节,这是我整理的链接,希望可以共同进步