金庸小说人物知识图谱构建——获取共现关系

在用命名实体识别工具提取出人名后,我们要构建一个知识图谱,还需要知道人物间的关系,而人物间的关系是基于人物共现来提取的,"共现"指的是两个人物在文章中某一部分共同出现,这个“部分”就是所谓的共现窗口的大小,可以是一个段落,也可以是一个句子,共现窗口越小,人物的共现频次可能就越高。

因此,本步骤的目的是得到人物间的共现关系,我采用的方法是用爬虫爬取免费小说网站上的数据,按章节爬取,将数据保存到数据库中。

数据来源

虽然我有本地数据,但我设定的共现窗口为一个章节,本地数据是整篇小说在一个文档中,无法区分出章节,所以我想到用爬虫到网上爬取数据。
经过一番选择,最后选定了一个免费小说网站,里面有我想要的《雪山飞狐》小说,并且是按章节来分的。

获取数据

金庸小说人物知识图谱构建——获取共现关系_第1张图片
爬虫代码已上传至github——代码

共现关系

将上一步骤得到的共现人名进行提取,存储到excel文件中
金庸小说人物知识图谱构建——获取共现关系_第2张图片
每一行表示在一个章节中共现的人物

参考文章

参考的一位大佬系列文章:
个人博客主页

你可能感兴趣的:(知识图谱,知识图谱,人工智能)