医疗知识图谱问答系统探究（一）

这是阿拉灯神丁Vicky 的第 23 篇文章

1、项目背景

为通过项目实战增加对知识图谱的认识，几乎找了所有网上的开源项目及视频实战教程。

果然，功夫不负有心人，找到了中科院软件所刘焕勇老师在github上的开源项目，基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。

项目地址：https://github.com/liuhuanyong/QASystemOnMedicalKG

用了两个晚上搭建了两套，Mac版与Windows版，哈哈，运行成功！！！

从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱，以该知识图谱完成自动问答与分析服务。该项目立足医药领域，以垂直型医药网站为数据来源，以疾病为核心，构建起一个包含7类规模为4.4万的知识实体，11类规模约30万实体关系的知识图谱。本项目将包括以下两部分的内容：

1、基于垂直网站数据的医药知识图谱构建

2、基于医药知识图谱的自动问答

2、项目环境

2.1 windows系统

搭建中间有很多坑，且行且注意。

配置要求：要求配置neo4j数据库及相应的python依赖包。neo4j数据库用户名密码记住，并修改相应文件。

安装neo4j，neo4j 依赖java jdk 1.8版本以上：

java jdk安装方法可参考：windows系统下安装JDK8，下载地址：https://download.oracle.com/otn-pub/java/jdk/8u201-b09/42970487e3af4f5aa5bca3f542482c60/jdk-8u201-windows-x64.exe

安装neo4j可参考博文：windows安装neo4j，下载地址：https://go.neo4j.com/download-thanks.html?edition=community&release=3.4.1&flavour=winzip

安装python可参考：Windows环境下安装python2.7

根据neo4j 安装时的端口、账户、密码配置设置设置项目配置文件：answer_search.py & build_medicalgraph.py (github下载项目时根据个人需要也可使用git)

数据导入：python build_medicalgraph.py，导入的数据较多，估计需要几个小时。

python build_medicalgraph.py导入数据之前，需要在该文件main函数中加入：

build_medicalgraph.py

启动问答：python chat_graph.py

2.2 Mac系统

mac本身自带python、java jdk环境，可直接安装neo4j图数据库，项目运行步骤与windows基本一样。

问题解答：

安装过程中如遇问题可联系Wechat: dandan-sbb。

2.3 Neo4j数据库展示

2.4 问答系统运行效果

3、项目介绍

该项目的数据来自垂直类医疗网站寻医问药，使用爬虫脚本data_spider.py，以结构化数据为主，构建了以疾病为中心的医疗知识图谱，实体规模4.4万，实体关系规模30万。schema的设计根据所采集的结构化数据生成，对网页的结构化数据进行xpath解析。

项目的数据存储采用Neo4j图数据库，问答系统采用了规则匹配方式完成，数据操作采用neo4j声明的cypher。

项目的不足之处在于疾病的引发原因、预防等以大段文字返回，这块可引入事件抽取，可将原因结构化表示出来。

3.1 项目目录

.

├── README.md

├── __pycache__ \\编译结果保存目录

│ ├── answer_search.cpython-36.pyc

│ ├── question_classifier.cpython-36.pyc

│ └── question_parser.cpython-36.pyc

├── answer_search.py

├── answer_search.pyc

├── build_medicalgraph.py \\知识图谱数据入库脚本

├── chatbot_graph.py \\问答程序脚本

├── data

│ └── medicaln.json \\本项目的全部数据，通过build_medicalgraph.py导neo4j

├── dict

│ ├── check.txt \\诊断检查项目实体库

│ ├── deny.txt \\否定词库

│ ├── department.txt \\医疗科目实体库

│ ├── disease.txt \\疾病实体库

│ ├── drug.txt \\药品实体库

│ ├── food.txt \\食物实体库

│ ├── producer.txt \\在售药品库

│ └── symptom.txt \\疾病症状实体库

├── document

│ ├── chat1.png \\系统运行问答截图01

│ ├── chat2.png \\系统运行问答截图01

│ ├── kg_route.png \\知识图谱构建框架

│ ├── qa_route.png \\问答系统框架图

├── img \\README.md中的所用图片

│ ├── chat1.png

│ ├── chat2.png

│ ├── graph_summary.png

│ ├── kg_route.png

│ └── qa_route.png

├── prepare_data

│ ├── build_data.py \\数据库操作脚本

│ ├── data_spider.py \\网络资讯采集脚本

│ └── max_cut.py \\基于词典的最大向前/向后脚本

├── question_classifier.py \\问句类型分类脚本

├── question_classifier.pyc

├── question_parser.py \\问句解析脚本

├── question_parser.pyc