搭建问答系统

一. 文本数据预处理流程

1. 清洗数据:去除颜文字,html等

2. 分词

3. 去除停用词

4. 去除低频词

二. 搭建倒排表

from gensim.models import KeyedVectors   # 词向量用来比较俩俩之间相似度。

倒排表是把每个词汇出现的问题的index用字典存储。

可以用倒排表把新输入问题的候选集得到(根据余弦相似度)。

三.  训练基于FastText的意图分类模型

意图识别实际上是文本分类任务,需要标注的数据:每一个句子需要对应的标签如闲聊型的,任务型的。

四.排序

基于倒排表返回的结果,再根据余弦相似度来计算query跟候选问题之间的相似度,最后返回相似度最高的问题的答案。将使用BERT来表示句子的向量。

你可能感兴趣的:(搭建问答系统)