中文对话数据集预处理

本文按照模型https://github.com/yangjianxin1/GPT2-chitchat提供的数据预处理方法,从环境配置、预处理方法、结果展示两个方面介绍中文对话数据集的预处理方法。

一、数据集介绍

本文采用50w中文闲聊语料作为预处理数据集百度网盘【提取码:4g5e】 ,中文闲聊语料的内容样例如下:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着

二、环境配置

python 3.6

pytorch 1.7.0

transfomers 4.4.2

1、创建新的环境(eg.gpt)

conda create -n your_name python==3.6 

2、激活环境并进入

conda activate gpt 

3、使用conda安装pytorch1.7.0(CPU版本)

 conda install pytorch==1.7.0 torchvision torchaudio cpuonly -c pytorch

4、安装transfomers4.4.2

pip3 install transfomers 

 报错:

中文对话数据集预处理_第1张图片

->安装wheel包 

pip install wheel

->重新安装transfomers4.4.2

pip3 install transfomers==4.4.2 

三、运行preprocess.py

python preprocess.py --train_path data/train.txt --save_path data/train.pkl 

报错:

中文对话数据集预处理_第2张图片 ->安装pandas包

pip install pandas 

 报错:

中文对话数据集预处理_第3张图片

->安装jieba 包

pip install jieba 

继续尝试运行,成功。

中文对话数据集预处理_第4张图片

 四、结果展示

数据预处理后的文件格式为.pkl,想要查看预处理后的文件

# show_pkl.py

import pickle

path = 'D:/model/GPT2-chitchat-master/train.pkl'

# path='/root/……/aus_openface.pkl' pkl文件所在路径

f = open(path, 'rb')

data = pickle.load(f)

print(data)

print(len(data))

 

你可能感兴趣的:(pytorch,人工智能,python)