首先我们先了解下这个概念,什么叫做问答系统(Question Answering System,简称 QA 系统)? 其实问答系统是一个比较常见的系统,在医疗系统/电商系统/零售业等等行业中都比较常见。通熟点它就是一个话术,这些话术包含了诸多的问题和一系列的答案。比较官方的定义为:是一种高级行式的信息检索系统,它能够十分准确的,并使用较简洁的语言去回答用户所提出的问题。
通过上面的讲解,我相信大家对问答系统有了一定的了解了,那么现在我们就开始从0到1的一个项目实战吧!!!
这里我们准备了一些数据集,从这些数据集可以看出来,这些数据集是一个key-value形式。当然,我们也可以用其他的数据集,这个自行替换就行。
"课程是线上课程还是线下课程?": "线上课程为主",
"课程有助教吗?": "为提高服务效率和质量,课程都配备专业的全职助教。",
"我没有基础应该从哪个课开始学?": "老师的Python基础集训营非常适合你哦,"
"可以在这里学习:http://csdn.com",
"学习周期是多久?": "如果你没有基础的话两个月可以搞定",
"课程的学习方式是什么呢?": "无需安装环境,在线直接写代码、看视频、看漫画,趣味性学习",
"课程的优势是什么呢?": "全网覆盖最全的Python基础知识体系练与学的深度结合,"
"每一个知识点都配有练习项目,生动有趣、授课方式多样,视频、文字、图片、在线代码编辑,"
"在聊天与娱乐中学习",
"课程的有效期是多久呢?": "我们把有效期确定为1年,1年内可无限次学习",
"课程有优惠吗?": "我们定价为开课后是599,现在是针对老学员预售199,开课后恢复原价"
这个项目使用的开发语言是Python,以及Flask web框架,使用的开发工具Idea是Pycharm(个人习惯)。因此要搭建此项目请先自己安装好Python以及Flask依赖。
a) 创建一个问答系统类
askSystem类包含了字典处理以及余弦相似度计算等方法。
import numpy as np # 用于 数组转换
import jieba # 用于中文分词
from sklearn.metrics.pairwise import cosine_similarity # 机器学习库,这里用于余弦相似度计算
from flask import Flask # Web 应用框架
class askSystem():
def __init__(self, corpus):
self.corpus = corpus
# 建立词典
def creat_dic(self):
all_question = ""
for question in self.corpus:
all_question += question
word_from_question = list(jieba.cut(all_question))
dictionaries = word_from_question
print(dictionaries)
return dictionaries
# 问题转换为向量
def transform_vector(self,date,dictionaries):
vector_list = []
for wd in dictionaries:
if wd in list(jieba.cut(date)):
vector_list.append(1)
else:
vector_list.append(0)
return np.array(vector_list).reshape(1, -1)
# 余弦相似度计算
def cosine_simi(self,date1,date2,dictionaries):
similar_list = cosine_similarity(self.transform_vector(date1,dictionaries), self.transform_vector(date2,dictionaries))
similar_num = similar_list[0][0] #相似度
return similar_num
def question_for_web(self, user_question,dictionaries):
question_dict = {}
similar_list = []
for key in self.corpus:
similar_num = self.cosine_simi(user_question,key,dictionaries)
similar_list.append(similar_num)
question_dict[similar_num] = self.corpus[key] # 相似度若相等,因为字典key值不能重复,会导致匹配答案不准确
if max(similar_list) == 0:
answer = "这就问题我再想想!"
else:
answer = question_dict[max(similar_list)]
return answer
b) 创建Flask web系统启动类
启动类包含了web接口,并定义了web系统的端口(port为5000,host为0.0.0.0表示任意主机可访问)等信息,除此之外还有跨域的问题。
from flask import Flask
from flask_cors import CORS
import askSystem
app = Flask(__name__)
CORS(app) # 解决跨域问题
@app.route('/')
def hello_world():
return 'Hello World!'
@app.route("/question/")
def question_for_web(user_question):
corpus = {
"课程是线上课程还是线下课程?": "线上课程为主",
"课程有助教吗?": "为提高服务效率和质量,课程都配备专业的全职助教。",
"我没有基础应该从哪个课开始学?": "老师的Python基础集训营非常适合你哦,"
"可以在这里学习:http://csdn.com/",
"学习周期是多久?": "如果你没有基础的话两个月可以搞定",
"课程的学习方式是什么呢?": "无需安装环境,在线直接写代码、看视频、看漫画,趣味性学习",
"课程的优势是什么呢?": "全网覆盖最全的Python基础知识体系练与学的深度结合,"
"每一个知识点都配有练习项目,生动有趣、授课方式多样,视频、文字、图片、在线代码编辑,"
"在聊天与娱乐中学习",
"课程的有效期是多久呢?": "我们把有效期确定为1年,1年内可无限次学习",
"课程有优惠吗?": "我们定价为开课后是599,现在是针对老学员预售199,开课后恢复原价"
}
askSys = askSystem.askSystem(corpus)
answer = askSys.question_for_web(user_question,askSys.creat_dic())
return answer
if __name__ == '__main__':
app.run(host='0.0.0.0' ,port=5000)
我们可以自己写一个前端,这个很简单,用Vue去写即可,实在不会,就用vue-template,自己修修改改即可,现在我们来看下效果吧。
一个简易的问答系统就这样完成了,当然,这个项目还可以进一步完善,比如 将数据存入Elasticsearch,通过它先进行初步的检索,然后再通过这个系统,当然我们也可以用其他的架构实现。如果你对这系统还有其他的疑问,也可以再下面进行留言!!!