农业知识图谱搭建和遇到的问题

Agriculture_KnowledgeGraph

demo:http://ecnukg.vicp.io
github:https://github.com/qq547276542/Agriculture_KnowledgeGraph

本文基于华东师范大学数据科学与工程学院构建的面向智慧农业的知识图谱及其应用系统,讲述了农业知识图谱搭建的过程和遇到的问题。

1.流程图

农业知识图谱搭建和遇到的问题_第1张图片

2.详细介绍

爬虫框架
程序中使用scrapy作为爬虫的框架,在scrapy中使用Item对象来保存爬取到的数据,只需将要保存的字段声明到Item类里;Spiders类定义了如何爬取某个网站;当Item在Spider中被收集之后,它将会被传递到Item Pipeline,在Pipeline中可以将爬取到的结果保存到数据库中。

数据获取
数据获取主要分为两部分内容,一部分是实体之间的关系,另一部分是实体的数据。实体存储在predict_lables.txt中,是由KNN算法预测的13W多个实体。实体之间的关系一部分在wikidata上爬取获得,另一部分通过互动百科页面中得到;实体的数据通过抓取互动百科页面的数据获得。

知识存储
有了实体的信息以及实体之间的关系,将这些信息筛选,然后入库就可以直接通过页面展示出来,程序中使用neo4j作为数据库。neo4j作为图形数据库,用于知识图谱的存储非常方便。

3.问题

neo4j安装
neo4j在windows上有两种安装方式,分别是.zip安装和.exe安装,.zip安装在官网下载解压后配置好环境变量就可以在命令行里输入neo4j install-service就可以安装,不过在安装时没有找到java.exe,所以在本程序中采用了.exe安装,安装好程序后在程序首页可以看到安装包所在的位置,将环境变量设置为安装的位置后就可以按下start按钮测试连接。

需要导入的库的安装
本程序运行需要很多库的支持,库的安装可以在命令行输入pip install …安装相应的包,但是在安装过程中会出现一些包无法安装的情况,在这里推荐使用Anaconda软件来进行python包的管理。

Django启动
在windows中可以将sudo省略,所以在命令行中输入sudo sh django_server_start.sh命令可以改为直接输入django_server_start.sh命令。在django_server_start.sh文件中将python3修改为当前电脑中相应的python编译器的版本。

访问主页面
第一次访问主页面时会出现DisallowedHost at / Invalid HTTP_HOST header的问题,需要将demo目录下的setting.py文件中的ALLOWED_HOSTS修改为ALLOWED_HOSTS = [’*‘]。

农业知识图谱的使用:https://blog.csdn.net/qq547276542/article/details/79548233

你可能感兴趣的:(农业知识图谱)