构建古籍的知识图谱的意义与方法

中国是历史悠久的文明古国,拥有卷帙浩繁的古籍文献。这些古籍文献是中华民族的宝贵精神财富,是我们历史文化的重要源泉,是中华名族知识传播的重要途径,同时也是中华民族文化的重要组成部分。古籍是中华文明的瑰宝,是中华民族的宝贵精神财富。收藏、整理、研究古籍文献,对了解中华民族5000多年历史具有重大意义,也是对历史文化更加深入分析的具体方法。

中国上下几千年的历史,产生的古籍浩瀚如烟,并用经历各种兵火战乱,天灾人祸,对最终留存下来的古籍分类统计,归纳整理显的格外重要,任务也比较艰巨。历史源远流长,真真假假,关系错综复杂,古籍数据巨多,梳理起来格外艰难痛苦。

知识图谱主要就是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系。旨在描述客观世界的概念、实体、事件及其之间的关系,并作为构建下一代智能化搜索引擎的核心基础。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

古籍与知识图谱的结合。以古籍为基础提供语义化的数据,以深度学习与方法,构建知识图谱三元素,构建实体、关系和属性组成的数据结构。完成对历史人物,历史事件,地理位置的梳理,建立历史关系的数字化映射,推理历史中未发掘的隐藏事件,还原历史的真实性。

构建古籍知识图谱,需要进行本体构建—信息抽取——知识融合。

本体构建

构建图谱的模型,是对构成图谱的数据的一种约束。可以通过梳理领域知识、术语词典、人工经验等作为schema构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义。

信息抽取

信息抽取也叫知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。

它是以人工智能为基础,进行自然语言处理,抽取命名实体,实体关系,实体属性,事件关系。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等

知识抽取的子任务:命名实体抽取、术语抽取、关系抽取、事件抽取、共指消解(弄清楚在一句话中的代词的指代对象)

关系抽取。从文本中抽取出两个或多个实体之间的语义关系。它是信息抽取研究领域的任务之一。

事件抽取:从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件的发生的时间、地点、发生原因、参与者等。抽取事件任务最基础的部分:1、事件触发词及事件类型;2、抽取事件元素同时判断其角色;3、抽出描述事件的词组或信息。

知识融合

知识融合。合并两个知识图谱(本体),基本问题是研究怎样将来至多个来源的关于同一个实体或概念的描述信息融合起来。

1. 数据质量的挑战:命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等

2. 数据规模的挑战:数据量大(并行计算)、数据种类多样性、不再仅仅通过名字匹配、多种关系、更多链接等

原文爱阅书

你可能感兴趣的:(知识图谱,人工智能,自然语言处理)