引言

该项目主要分为两部分：

第一部分：搭建知识图谱。该部分的具体讲解将在 [Datawhale 知识图谱组队学习 Task 3 Neo4j图数据库导入数据进行介绍；
第二部分：启动问答测试。构建一个简单的基于知识图谱的对话系统，该部分的具体讲解将在Datawhale 知识图谱组队学习 Task 4 用户输入、知识库的查询语句和 Datawhale 知识图谱组队学习 Task 5 Neo4j 图数据库查询进行分别介绍

项目介绍

该项目是GITHUB上的一个开源项目QASystemOnMedicalGraph。是基于医疗领域知识图谱的问答系统。具体内容为从无到有搭建一个医疗领域知识图谱(知识图谱规模较小)，并基于此知识图谱搭建问答系统实现自动问题解析和回答。

下图是系统实际运行效果：

image.png

运行环境：Python3 数据库：neo4j 预训练词向量：https://github.com/Embedding/Chinese-Word-Vectors或https://pan.baidu.com/s/14JP1gD7hcmsWdSpTvA3vKA

1、搭建知识图谱：python build_grapy.py。大概几个小时，耐心等待。 2、启动问答测试：python kbqa_test.py
2、项目测试：python kbqa_test.py

数据源：39健康网。包括15项信息，其中7类实体，约3.7万实体，21万实体关系。

本系统的知识图谱结构如下：

image.png

1.1 知识图谱实体类型

1.2 知识图谱实体关系类型

实体关系类型	中文含义	关系数量	举例
ALIAS_IS	别名是	52578	癫痫别名是羊角风
HAS_SYMPTOM	症状有	62105	乙肝症状有肝功能异常
PART_IS	发病部位是	26660	乙肝发病部位是肝
DEPARTMENT_IS	所属科室是	33867	乙肝所属科室是传染科
HAS_COMPLICATION	并发症有	25183	乙肝并发症有肝硬化
HAS_DRUG	可用药品	35914	乙肝可用药品恩替卡韦分散片
TOTAL	总计	210018	约210018对关系

1.3 知识图谱疾病属性

基于特征词分类的方法来识别用户查询意图

1、本项目构建简单，通过本项目能了解KBQA的工作流程。

2、本次通过手工标记210条意图分类训练数据，并采用朴素贝叶斯算法训练得到意图分类模型。其最佳测试效果的F1值达到了96.68%。选用NB的原因是通过与SVM训练效果比较后决定的。

3、不足之处：