近两年来,随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文将从以下几个方面来介绍知识图谱:知识图谱的研究现状和存在的问题,知识图谱的构建过程涉及的关键技术和知识图谱在搜索中的应用等。
关键字:知识图谱,本体,实体对齐,同义关系学习
正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is madeof things.”,这里的“thing”是和传统的互联网上的网页相比较的,知识图谱的目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱可以看成是一张巨大的图,图中的节点表示实体或概念,而图中的边则由关系构成。
本体定义了知识图谱中的数据模式,因而本体构建研究的成果能在很大程度上辅助知识图谱的构建。本体学习技术在近年来得到越来越多研究者的关注。本体学习可以简单地划分为术语和概念的学习、术语概念之间的关系学习,在关系学习中,主要包括同义关系学习、分类学关系学习、非分类学关系学习以及属性学习。依据本体学习所基于数据来源,本文把本体学习分为五类:基于非结构化数据的本体学习、基于半结构化数据的本体学习、基于结构化数据的本体学习、基于在线百科的本体学习和基于其它数据源的本体学习。
(1)基于非结构化数据的本体学习
非结构化数据就是没有固定结构的数据,这里常用的非结构化数据是指纯文本,在互联网中存在着大量的文本信息,是本体学习的重要数据来源。文本通常依据特定句法规则表达特定的含义,人类可以根据一些背景知识和上下文来理解其中包含的语义;但是,由于其不具备特定的结构,机器并不能直接明白其中所包含的语义。因此,从文本中获取知识通常需要使用自然语言处理技术进行预先处理,包括分词、词性标注、命名实体识别和句法分析等步骤;然后借助统计分析、机器学习等技术获取知识[1,2]。
(2)基于结构化数据的本体学习
结构化的数据主要指数据库中包含的数据,企业的内部数据基本都存储于关系数据库中,这些数据可以视作深网数据或隐网数据,使用通用的搜索引擎爬虫很难直接获取。这些数据对于构建本体非常有用,尤其是构建领域本体,因为这些数据大部分情况下都是面向主题或领域的。在关系模型中,实体以及实体间的关系都是使用数据表来表示的,所以需要首先鉴定每个表的用途,寻找出其中用来描述实体或实体间关系的表,然后将这些表分别映射成为本体中的概念和关系。Stojanovic[3]等人制定了组从关系模型到本体的映射规则,规则涵盖了关系数据库中的表格、列、主键、外键以及其它的依赖关系;通过使用这些规则可以得到一个初步的本体,在经过修正好,可以生成最终的本体。(3)基于半结构化网页的本体学习
半结构化的数据指具备一定的隐含结构,但缺乏严格且固定的数据模式,最具代表性的半结构化数据为互联网中海量的以HTML格式存在的网页文档和部分以XML形式存在的文档。对于非结构化的数据,在进行本体学习时,首先尽可能地利用当中的结构化信息,然后还可以使用基于无结构化文本的方法学习本体。Sanchez和Moreno[4]等人开发了一种从初始关键词自动构建本体的方法,他们首先使用搜索引擎获取与初始关键词相关的网页,然后再从这些获得的网页中抽取新的概念以及概念之间的关系,抽取的主要依据是对概念的出现进行统计分析。
(4)基于在线百科的本体学习
随着互联网中用户生成内容的快速增长,这些数据成为本体构建的非常重要的数据源;与一般的网页文档相比,这些数据具备更加丰富的信息,并且具备一定的语义结构,而且是公幵的,可以非常方便地从中抽取和学习本体知识。最具代表性的用户生成内容为在线百科,包括维基百科[5]、互动百科[6]和百度百科[7]。
(5)基于其它数据源的本体学习
许多其它的数据源也被用于本体的构建,例如搜索引擎日志[8,9]、概念网络[10]和一些机器可读的词典[11]等。基于搜索引擎日志和方法主要对用户在使用搜索引擎寻找知识的过程中的各种行为信息进行挖掘,这些行为包括输入搜索词、对搜索引擎返回结果的点击和翻页、搜索词的修改等。
从以上国内外本体构建相关研究工作的现状分析得知,目前本体构建的方法还存在各方面的问题。基于人工构建本体的方法都还在专家编辑时代,在互联网规模数据时代已经不能满足大知识量的要求,本体编辑的工作量非常巨大而专家资源相对稀缺,所构建的本体在覆盖面、更新速度等方面将到比较严重的限制。在自动构建本体方面,目前还极少有方法能够自动构建在覆盖面、准确性均能很好满足的本体。在中文本体构建方面,目前的方法对互联网中的越来越多的结构化或半结构化的信息利用不够充分,而且缺乏有综合利用多种方法并且利用多种数据源的本体学习方法。
在其它语言中,知识图谱与本体的构建相关的研究工作非常多,尤其是英文知识图谱和本体的构建研究。与英文知识图谱和本体构建相比,中文知识图谱和本体构建具备以下差异和难点:
(1)中文的在线百科也不如英文维基百科丰富。英文维基百科拥有良好的结构和丰富的数据,文章数量在400万以上,而且大多数文章拥有比较详细的内容;而中文维基百科的文章数量则仅有70余万,其中许多文章仅含有简短的文字描述,还有部分文章是从英文文章通过机器翻译转换而得,因此信息非常有限。中文中虽然有其它两大百科拥有与维基百科相当数量的文章,但它们的结构比较自由。因此在中文的知识图谱学习中,从百科中获取知识的方法比英文中复杂得多。(2)中文知识图谱构建的开放链接数据和开放知识库相对缺乏。DBPedia和YAGO两个知名的开放链接数据集中包含了丰富的英文结构化数据,是知识图谱构建的最丰富的知识来源,然而这两个数据集中包含的中文知识非常有限;在中文领域也没有其它类似的开放数据集。
(3)在中文中,没有像WordNet—样完整的词典库,用于知识图谱构建中机器学习的起步或用于学习结果的评估。
(4)中文语言的自然特性与英文不同,因此,英文中关于从文本中抽取与学习知识的方法在中文在并不实用,尤其是基于文本的开放关系学习的相关方法。
针对目前知识图谱及其本体构建存在的问题与不足,本文主要在如下几个方面展开研究:
(1)研究综合使用多种数据源相构建中文知识图谱。充分利用目前互联网中的各类结构化或半结构化的信息,最具代表性的有各种开放链接数据、百科数据、行业网站等。关系数据库中的数据,准确性方面可以得到良好的保证,虽然数据模式方面比较贫乏,但其依然可有作为知识图谱构建的起点,用于bootstrapping;互联网中的开放链接数据和领域公开知识库,以及各个在线百科,一方面可以从中得到基本的数据模式,另一方面也可从中抽取大量数据层面的知识,尤其是实体信息本文构建的知识图谱中的实体,大部分都从这些数据源得到);从非结构化的文本当中,主要用于填充数据层面的信息(属性的值)。
(2)研究如何从大规模的互联网文本中抽取构建知识图谱所需要的知识。对于文本知识抽取,通常使用基于模式的方法和基于分布相似度的方法。这两类方法通常可以保证比较高的准确率,但在召回率方面明显不足,而机器学习的方法则在召回率方面表现良好,但是如果使用监督学习,则需要人工标注大量的语料。本文将探索如何利用从结构化数据源中抽取的知识,在一定程度上自动地标注机器学习所需要的语料以减少人工标注工作,然后在互联网规模的文本中利用训练的模型抽取知识。
(3)基于多种数据源之间的冗余数据对知识图谱的准确性进行有效保证和合理地评估,因为这些冗余信息一方面可以提高知识点的可信度,另一方面也可以为后续人工编辑和校验提供依据。对于各类数据源,首先赋予一定的置信度,结合各知识点的支持条件,给出初步的可信度,对于冲突的结果给出详细的支撑信息;最后在自动校验上结果上提供了人工进行校验的方法。