人机对话系统一直是AI的重要方向,图灵测试以对话检测机器是否拥有高度的智能。如何构建人机对话系统或者对话机器人呢?
对话系统经过三代的演变:
对话系统分为三类:
计算用户问句与问答库中问句的相似度,选择最相似的问句,给出其对应的答复。
句子相似度计算包括以下方法:
对百度、Bing的搜索结果摘要进行答案的检索
Official Demo: https://www.mulanai.com/product/dialogbot/
The project is based on transformers 4.4.2+, torch 1.6.0+ and Python 3.6+.
Then, simply do:
pip3 install torch # conda install pytorch
pip3 install -U dialogbot
or
pip3 install torch # conda install pytorch
git clone https://github.com/shibing624/dialogbot.git
cd dialogbot
python3 setup.py install
example: examples/bot_demo.py
from dialogbot import Bot
bot = Bot()
response = bot.answer('姚明多高呀?')
print(response)
output:
query: "姚明多高呀?"
answer: "226cm"
example: examples/taskbot_demo.py
基于GPT2生成模型训练的聊天型对话模型。
模型已经 release 到huggingface models:shibing624/gpt2-dialogbot-base-chinese
example: examples/genbot_demo.py
from dialogbot import GPTBot
bot = GPTBot()
r = bot.answer('亲 你吃了吗?', use_history=False)
print('gpt2', r)
output:
query: "亲 吃了吗?"
answer: "吃了"
真想找你一起去看电影
突然很想你
我也很想你
想看你的美照
亲我一口就给你看
我亲两口
讨厌人家拿小拳拳捶你胸口
今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着
运行preprocess.py,对data/train.txt对话语料进行tokenize,然后进行序列化保存到data/train.pkl。train.pkl中序列化的对象的类型为List[List],记录对话列表中,每个对话包含的token。
cd dialogbot/gpt/
python preprocess.py --train_path data/train.txt --save_path data/train.pkl
在训练时,可以通过指定patience参数进行early stop。当patience=n时,若连续n个epoch,模型在验证集上的loss均没有下降,则进行early stop,停止训练。当patience=0时,不进行early stop。
代码中默认关闭了early stop,因为在实践中,early stop得到的模型的生成效果不一定会更好。
python train.py --epochs 40 --batch_size 8 --device 0,1 --train_path data/train.pkl
更多的训练参数介绍,可直接看train.py中的set_args()函数中的参数说明
运行interact.py,使用训练好的模型,进行人机交互,输入q结束对话之后,聊天记录将保存到sample.txt文件中。
python interact.py --no_cuda --model_dir path_to_your_model
执行interact.py时,可以尝试通过调整topk、topp、repetition_penalty、max_history_len等参数,调整生成的效果。更多的参数介绍,可直接看interact.py的set_args()函数中的参数说明
如果要使用GPU进行生成,则不要调用–no_cuda参数,并且通过–device gpu_id来指定使用哪块GPU。
user :在干嘛
chatbot:睡觉
user :这么早就睡觉啦
chatbot:嗯啊你也早点睡啊
user :我再玩一会儿手机
chatbot:早点休息晚安
user :拜拜啦
chatbot:晚安晚安
user :多喝热水
chatbot:哈哈哈
user :多喝热水
chatbot:好的咯
user :在吗
chatbot:在
user :我不开心
chatbot:怎么啦
user :最近好累啊
chatbot:是挺累的
user :作业好多啊
chatbot:还好还好
user :我觉得我快要挂科了
chatbot:我也是啊,但是我觉得我快熬出头了
user :不说了,我还有好多作业没写
chatbot:我也是啊好多啊
user :那先这样,下次再聊,再见了
chatbot:好哒
中文闲聊语料的内容样例如下:
谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某,还有你
这个某某某用的好
你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊
今天好点了吗?
一天比一天严重
吃药不管用,去打一针。别拖着
模型 | 共享地址 | 模型描述 |
---|---|---|
model_epoch40_50w | shibing624/gpt2-dialogbot-base-chinese 或 百度网盘(提取码:taqh) 或 GoogleDrive | 使用50w多轮对话语料训练了40个epoch,loss降到2.0左右。 |
参考链接:https://github.com/shibing624/dialogbot
如果github进入不了也可进入 https://download.csdn.net/download/sinat_39620217/88205596 免费下载相关资料