知识图谱构建一、知识图谱前言

       信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时 代的标志性技术,正处于这场技术变革的核心。从网页的链接 ( W e b 1 .0)到 数据的链接(linked data),Web技术正在逐步朝向Web之父BernersLe设想中 的语义网络-(semanticWeb)演变。

       根据 W3C 的解释,语义网络是一张数据构成的网络 (W eb of data ),语 义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识。而知识图谱(knowledgegraph)技术则是实现智能化语义检索的基础和桥梁。传统搜索引擎技术能够根据用户查询快速排序 网页,提高信息检索的效率。然而,这种网页检索效率并不意味着用户能够快速准确地获取信息和知识,对于搜索引擎反馈的大量结果,还需要进行人工 排查和筛选。随着互联网信息总量的爆炸性增长,这种信息检索方式已经很难满足人们全面掌控信息资源的需求,知识图谱技术的出现为解决信息检索问题提供了新的思路。

        知识图谱的概念是由谷歌公司提出的。2012 年5月17日,谷歌发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。该项目始于2010 年谷歌收购Metaweb公司,并籍此获得了该公司的语义搜索核心技术,其中的关键技术包括从互联网的网页中抽取出实体及其属性信息,以及实体间的 关系.这些技术特别适用于解决与实体相关的智能 问答问题,由此创造出一种全新的信息检索模式.

       虽然知识图谱的概念较新,但它并非是一个全新的研究领域 .早在2006 年,Berners-Le e 就提出了数据链接 (linked data)的思想,呼吁推广和完善 相关的技术标准如URI(uniform resourceidentifier),RDF(resource description framework),OWL(Web ontology language),为迎接语义网络时代的到 来做好准备。随后掀起了一场语义网络研究热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。

       我国对于中文知识图谱的研究已经起步,并取得了许多有价值的研究成果。早期的中文知识库主要采用人工编辑的方式进行构建,例如中国科学院 计算机语言信息中心董振东领导的知网 (HowNet)项目,其知识库特点是规模相对较小、知识质量高、但领域限定性较强。由于中文知识图谱的构建对中 文信息处理和检索具有重要的研究和应用价值,近年来吸引了大量的研究。例如在业界,出现了百度知心、搜狗知立方等商业应用。在学术界,清华大学建 成了第1个大规模中英文跨语言知识图谱 XLore、中国科学院计算技术研究所基于开放知识网络(OpenKN)建立了 “人立方 、事立方 、知立方 ”原型系统、中国科学院数学与系统科学研究院陆汝钤院士提出知件 (Knowware)的概念 、上海交通大学构建并发布了中文知识图谱研究平台zhishi.me 、复旦大学 GDM 实验室推出的中文知识图谱项目等,这些项目的特点是知识库规模较大,涵盖的知识领域较广泛,并且能为用户提供一定的智能搜索及问答服务。

        随着近年来谷歌知识图谱相关产品的不断上线,这一技术也引起了业界和学术界的广泛关注。它究竟是概念的炒作还是如谷歌所宣称的那样是下一代搜索引擎的基石,代表着互联网技术发展的未来方向?为了回答这一问题,首先需要对知识图谱技术有完整深刻的理解。本文的目的就是从知识图谱的构建角度出发,深度剖析知识图谱概念的内涵和发展历程,帮助感兴趣的读者全面了解和认识该技术,从而客观地做出判断。​

你可能感兴趣的:(笔记,NLP)