知识图谱

知识图谱技术

知识图谱(Knowledge Graph,KG)描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人、动物、组织机构等。实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等。事件是客观事件的活动,如地震、买卖行为等。关系描述概念、实体、事件之间客观存在的关联 关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的 关系是概念和子概念之间的关系等。谷歌于2012年5月推出谷歌知识图谱,并利用其在搜索引擎中增强搜索结果,标志着大规模知识图谱在互联网语义搜索中的成功应用。

知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系,将互联网的信息表 达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为了互联网智能服务的基础设施。知识图谱与大数据和深度学习一起,已经成为推动人工智能发展的核心驱动力之一。

知识图谱技术是指在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、 信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等的交叉研究。知识图谱研究一方面探索从互联网语言资源中获取知识的理论和方法,另一方面促进知识驱动的语言 理解研究。特别是,随着大数据时代的到来,研究从大数据中挖掘隐含的知识理论与方法, 将大数据转化为知识,增强对互联网资源的内容理解,将促进当代信息处理技术从信息服务 向知识服务转变。知识图谱在下面应用中具有价值:
知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些信息资源 进行语义标注和链接,建立以知识为中心的资源语义集成服务;
语义搜索:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念 和实体,搜索结果直接显示的满足用户需求的结构化信息内容,而不是互联网网页;
问答系统:基于知识的问答系统将知识图谱看成一个大规模的知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。

知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三个方面。知识表示研究客观世界的知识如何在计算机里表示和处理,知识图谱构建解决如何建立计算机的算法从客观世界或者互联网的各种数据资源中获取客观世界知识,知识图谱应用主要研究如何利用知识图谱更好地解决实际应用问题。可以看出,知识图谱表示、构建和应用是一项综合性的复杂技术。知识图谱技术既涉及自然语言处理中的各项技术,在资源内容的表示上可以使用从浅层的文本向量表示、到句法和语义结构表示,从自然语言处理技术上会使用到分词和词性标注、命名实体识别、句法语义结构分析、指代分析等。知识图谱反过来可以 促进自然语言处理技术的研究,建立知识驱动的自然语言处理技术如基于知识图谱的词义排 岐和语义依存关系分析等。

知识图谱的关键技术涉及自然语言处理、数据挖掘和信息检索等多个领域,相关研究工作在近年来越来越多地受到国内外学者的关注。研究方法主要可分为知识驱动和数据驱动两 类:知识驱动的方法就是以领域专家的知识与经验为基础,构建能够媲美人类专家知识和问 题解决能力的领域知识体系,并通过积累扩充至开放领域;数据驱动的方法则是数理统计为 理论基础,以大规模的数据为驱动,通过机器学习和数据挖掘技术自动获取知识,构建大规模的知识图谱。

知识表示

知识表示对客观世界知识进行建模,表示客观世界知识中所蕴涵的语义内容以及关联,以便于机器识别和理解。知识表示既要考虑知识的表示与存储,又要考虑知识的使用和计算,知识表示理论是智能系统的基础性关键科学问题。
知识表示研究利用认知科学和心理学的研究成果,首先要了解人类本身是如何表示知识 并利用他们解决问题的,然后将其形式化表示成计算机可以推理和计算的表达形式,建立基于知识的系统,提供智能知识服务。同时,知识表示也需要结合计算机对符号表示、处理和计算的能力。知识表示需要解决的关键问题是:
1)建立什么样的知识表示形式能够准确地反映客观世界的知识;
2)建立什么样的知识表示可以具备语义表示能力;
3)知识表示如何支持高效知识推理和计算,从而使知识表示具有得到新知识的推理能力。
现有的主要知识表示技术可以分成符号主义和联结主义。符号主义知识表示的基础是纽 威尔和西蒙提出的物理符号系统假设,认为人类认知和思维的基本单元是符号,而认知过程 就是在符号表示上的运算。联结主义认为人的认知就是相互联系的具有一定活性值的神经单元所形成网络的整体活动,知识信息不存在于特定的地点,而是在神经网络的联结或者权重中。
知识表示应该反应人类对客观世界的认知,并能够从不同层次和粒度表达客观世界所呈现的语义。本体这个概念在哲学中表示世界的本质,在计算机领域则表示计算机对客观世界 或者感兴趣领域的概念化描述,通常表示对客观世界中概念、实体、事件及其关系的描述。
当前主要知识表示方法可以分成传统人工智能中基于符号逻辑的知识表示,如:产生式 系统、谓词逻辑、框架表示、语义网等;互联网资源的开放知识表示方法,如 XML、RDF 和 OWL 等;基于知识图谱的表示学习通过深度学习可以将知识表示成低维连续实值稠密的实值 向量空间,有助于实现高效的知识计算。

  • 基于符号逻辑的知识表示
    是基于符号逻辑的知识表示方法,主要包括逻辑表示法(如一阶逻辑、描述逻辑),产生式表示法和框架表示等。逻辑表示与人类的自然语言比较接近, 因此它也是最早使用的一种知识表示方法。基于符号逻辑的知识表示技术虽然可以很好地描 述逻辑推理,但是由于在推理中机器生成规则的能力很弱,推理规则的获取需要大量的人力, 并且对数据的质量要求较高。在目前大规模数据时代,基于符号逻辑的知识表示已经不能很 好地解决知识表示的问题。
  • 万维网内容的知识表示
    Tim Berners-Lee 在其著作《Waving the Web》中提出了语义网(Semantic Web)的概念。在语义网中,网络内容都应该有确定的意义,而且可以很容 易地被计算机理解、获取和集成。万维网内容知识表示包括半结构基于标记的置标语言 XML2、基于 RDF3万维网资源语义元数据描述框架和基于描述逻辑的 OWL4本体描述语言等;以及当前 在工业界得到大规模应用的基于三元组的知识图谱知识表示方法。XML 将网页样式与内容分 离,通过为内容置标,便于数据交换;RDF 通过三元组(主体,谓词,客体)描述互联网资 源之间的语义关系;互联网语义资源的 OWL 构建在 RDF 之上,是具有更强表达及其解释能 力的语言。这些技术使我们可以将机器理解和处理的语义信息发布在万维网上。
  • 表示学习
    表示学习的目标是通过机器学习或深度学习将研究对象的语义信息表示为稠 密低维的向量。对不同粒度知识单元进行隐式的向量化表示,以支持大数据环境下知识的快 速计算。表示学习主要包括张量重构和势能函数的方法:张量重构综合整个知识库的信息, 但在大数据环境下张量维度很高,重构的计算量较大;势能函数方法认为关系是头实体向尾 实体的一种翻译操作,Bordes 等人提出的TransE模型是翻译模型的代表。之后有大量的工作对 TransE 进行扩展和应用,如通过优化向量化表示模型、结合文本等外部信息、应用逻 辑推理规则等方法,这些方法进一步提升了表示学习效果。相比传统的知识表示方法,知识表示学习方法可以显著提升计算效率,有效缓解数据稀 疏性,更容易实现不同来源的异质信息融合。因此,表示学习对于知识库的构建、推理和应 用具有重要意义。

知识图谱构建

知识图谱构建是根据特定知识表示模型,从分布异构的海量互联网资源中采用机器学习和信息抽取等技术,建立大规模知识图谱的过程。知识图谱构建是知识图谱技术最为关键的 技术之一,信息抽取和语义集成是知识图谱构建的核心技术问题。
知识图谱构建方法主要由三方面因素确定,其一是从什么样的数据资源中学习知识,主 要包括结构化(如数据库数据)、半结构化(如互联网上的表格数据等)和非结构化资源(如文本数据等)对象。维基类百科资源是利用群体智能建立的大规模供人阅读理解的知识资源, 其中蕴含了大量的高质量的结构化知识,也是知识图谱构建时使用的重要资源。其二学习什 么类型的知识,主要包括概念层次结构、事实知识、事件知识等。其三是使用什么样的学习 方法获得知识,主要方法有有监督学习、半有监督学习和无监督学习方法。
此外,互联网上已经存在大量的结构化知识资源(如 Freebase,YAGO 等),这些知识资 源之间互为关联,相互补充,很多知识计算任务需要联合多个知识资源给出结果。因此,异 构知识资源的语义链接和集成也是知识图谱的一项核心技术,需要首先研究异构数据资源的 关联方法,将其转化成为具有丰富链接关系的知识网络,进一步研究跨知识库的语义计算方 法。因此,多源异构知识库的链接是一个亟需解决的问题。目前语义集成主要从语义网和自 然语言处理两个方面分别进行。语义网领域的相关研究是数据链接,自然语言处理领域对应 于实体链接。
知识图谱中知识的来源有两类,一类是互联网上分布、异构的海量资源,一类是已有的异构结构化语义资源。从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习、事实学习、事件学习等,而第二类资源进行的知识图谱构建工作是语义集成。

  • 概念层次学习
    概念是人们理解客观世界的线索,不同粒度的概念能够给予知识不同层 次的精确程度,概念层次是知识图谱的“骨骼”。概念层次学习就是通过合理的技术抽取知 识表示中的概念并确定其上下位关系。概念层次学习多采用基于启发式规则的方法,其基本 思路是根据上下位概念的陈述模式从大规模资源中找出可能具有上下位关系的概念对,并对上下位关系进行归纳。另一类是基于统计的概念层次学习方法,假设相同概念出现的上下文 也相似,利用词语或实体分布的相似性,通过定义计算特征学习概率模型来得到概念结构。
  • 事实学习
    知识图谱中事实以三元组的形式表示,一个知识图谱中事实的数量决定了知 识图谱的丰富程度。据不完全统计,Google 知识图谱到目前为止包含了5亿个实体和35亿条事实。按照知识图谱构建时采用的机器学习方法,事实学习方法可以分为有监督、半有监督及无监督方法。
    有监督的事实知识获取方法使用已标注文档作为训练集,可以分为基于规则学习、基于 分类标注和基于序列标注方法等。基于规则学习的语义标注方法从带语义标注的语料中自动 学习标注规则,利用规则对数据资源进行语义标志,适合对具有比较规范出现的资源的知识 获取;基于分类的知识获取方法将知识获取方法转化为分类算法,根据确定的标注特征从标 注预料中学习标注模型;基于序列模式标注的方法同时考虑多个语义标志之间的关系,可以 提高标注的准确率。还包括其他如考虑层次关系的语义标注的方法等。
    半有监督的知识获取方法主要包括自扩展方法(bootstrapping)、弱有监督方法 (distant supervision)和开放信息抽取方法(open information extraction)。自扩展方法 需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取 以发现新的实体对,这种方法的主要问题是语义漂移,代表工作有 Mutual exclusive Bootstrapping, Coupled trainin 和 Co-Bootstrapping。弱监督方法使用知识库中的关系 启发式地标注文本,它的问题主要在于训练实例中本身带有大量噪音。开放信息抽取法主要 使用自然语言处理方法,无需预先给定要抽取的关系类别,自动将自然语言句子转换为命题。 这种方法的主要缺点是在处理复杂句子时效果会受到影响。
    无监督知识获取的代表性系统有 KnowItAll, 这套系统具有领域无关特性,可以使用自扩展的方式从大规模互联网信息中抽取语义信息,同时可以自动地评估所抽取信息的可信程 度。
  • 语义集成
    互联网上已有许多大规模知识库,其中比较著名的有 DBPedia、YAGO 等。然 而知识库之间的异构性,对知识在整个语义网上的共享造成了阻碍。语义集成就是通过发现 异构知识库中实体间的等价关系,从而实现知识共享的技术。由于知识库多以本体的形式描 述,因此语义集成中的主要环节是本体映射。本体匹配的方法主要包括:
    • 基于文本信息的方法:这种方法主要利用本体中实体的文本信息,例如实体的标签 和摘要信息。通过计算两个实体字符串之间的相似度(常用的有编辑距离相似度, Jaccard 相似度),来确定实体之间是否具有匹配关系。
    • 基于结构的方法:这种方法主要利用本体的图结构信息来对本体进行匹配。其中较 为代表性的方法有 SimRank 和相似度传播, 这些方法利用本体的图结构,对实体间 的相似度进行传播,从而提高对齐的效果。
    • 基于背景知识的方法:这种方法一般使用DBPedia或WordNet等已有的大规模领域 无关知识库作为背景知识来提高匹配效果。例如,Aleksovski 等人利用 DICE 本体(医学领域的本体)来匹配结构信息缺失的两个与医学相关的本体。
    • 基于机器学习的方法:这种方法将本体匹配问题视为一个机器学习中的分类或优化问题,采取机器学习方法获得匹配结果。例如将本体匹配视为一个贝叶斯决策问题。 Niepert等人将本体匹配问题使用马尔可夫逻辑网络(Markov Logic Network)建模, 将本体中的各种信息转化为各种约束条件,并求出最优解.

知识图谱应用技术

知识图谱应用的任务是利用知识图谱,建立基于知识的系统并提供智能的知识服务,是 知识图谱建立的终极目标。主要包括:基于知识的互联网资源的信息融合、语义搜索、基于知识的问答系统和基于知识的大数据分析和挖掘。
知识图谱不仅提供计算机更好的理解互联网资源的知识内容,同时也提供给计算机更好 地组织和管理海量数据资源的结构:

  • 基于知识图谱的大数据融合技术
    研究语义标注或者实体链接技术,实现不同资源类型、不同媒体类型的互联网资源的融合、管理与服务。国际很多研究团队投入到知识图谱应用平台的研究中,W3C倡导的Linked Open Data 将由互联文档组成的万维网扩展成为由互联数据组成的全球数据 及知识共享平台,欧盟第七合作框架下的 LarKC、LOD2、Xlike 项目分别支持建立大规模知 识获取和推理、互联数据生成与链接,以及跨语言知识抽取的平台,在包括政府开放数据、 智慧医疗、智慧城市在内的很多应用领域获得了成功应用。相比之下国内在知识工程领域起 步较晚,目前大多数的知识处理平台还多是数据挖掘或者语义分析的功能,并没有实现支撑 建立知识图谱开发平台。
  • 基于知识图谱的语义搜索
    实现当前从基于关键词搜索到基于语义的实体和关系搜索,可以直接得到用户感兴趣的客观世界的实体和实体关系信息,而不只是包含关 键词的网页文档。其中对于实体类型匹配和实体链接、以及基于实体和关系的排序是核心技术。语义搜索利用具有良好语义定义的形式,以有向图的方式提供满足用户需求的结构化 语义内容。主要包括RDF和OWL的语义搜索引擎和基于链接数据的搜索等。语义搜索利用建 立大规模知识库对用户搜索关键词和文档内容进行语义标注,改善搜索结果,典型的应用包 括谷歌的 Knowledge Graph 和国内的百度知心、搜狗的知立方等。
  • 基于知识图谱的问答系统
    通过将用户的提问转换成对结构化知识图谱的查询可以 直接得到用户的答案,其中问题理解和基于推理的知识匹配是核心技术。
    知识图谱为更好的理解大数据提供了基础设施,通过基于知识图谱的融合技术可以更好的组织和管理大数据的同时,也为大数据分析和挖掘提供的丰富的语义信息,更好地理解大数据的语义,帮助人们制定决策。基于知识库的问答通过对问句的语义分析,将非结构化问句解析成结构化的查询语句,在已有结构化的知识库上查询答案。这类方法依赖于语义解析 器的性能,受制于词、短语、从句等不同颗粒度下文本内容歧义、结构歧义的影响,在面对 大规模、开放域知识库时,往往性能很低。近两年很多研究者开始研究基于深度学习的知识 库问答方法,这类方法更具鲁棒性。但是目前这类方法还只能处理简单、单关系的问题,对 于复杂问句的处理效果还是很差,特别是缺乏对于问句的情景感知能力,缺乏对于问句语义 细致、个性化的分析。

知识图谱资源

互联网知识图谱资源有:Dbpedia,Freebase,Yago,百度百科,中国行政区划,中国专利知识图谱,中国期刊论文知识图谱,Wordnet,Hownet,同义词词林。


sennchi

你可能感兴趣的:(知识图谱)