关注
、点赞
、收藏
、订阅。
2012 年 5 月 17 日,Google 正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,改善用户的搜索质量以及搜索体验。当前的人工智能技术其实可以简单地划分为感知智能(主要是图像、视频、语音、文字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。
知识图谱(Knowledge Graph,简称KG)本质上是一种叫做语义网络(semantic network)的知识库,即具有有向图结构的一个知识库。由节点(point)、边(edge)和属性(property)组成,在知识图谱里,每个节点表示现实世界中的‘实体’,每条边表示实体与实体之间的‘关系’。
知识图谱的组成三要素包括:实体、关系和属性。
实体:又叫作本体(Ontology),指客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念或联系,实体是知识图谱中最基本的元素。
关系:在知识图谱中,边表示知识图谱中的关系,用来表示不同实体间的某种联系。
属性:知识图谱中的实体和关系都可以有各自的属性。
图1 知识图谱中的三要素
通用知识图谱:面向通用领域的“结构化的百科知识库”,侧重构建行业常识性的知识,并用于搜索引擎和推荐系统。
特定领域知识图谱(行业知识图谱,垂直知识图谱):面向某一特定领域,可看成是一个“基于语义技术的行业知识库”,主要面向企业,通过构建不同行业、企业的知识图谱,对企业内部提供知识化服务。
知识来源:可以从多种来源获取知识图谱数据(文本,结构化数据库,多媒体数据,传感器数据等)。
知识表示:知识表示是指用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术。
知识抽取:知识抽取按任务可以分为概念抽取、实体识别、关系抽取、事件抽取和规则抽取等。
知识融合:在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中获取知识输入。
知识图谱补全与推理:常用的方法有基于本体推理的补全方法,基于表示和知识图谱嵌入的链接预测,基于图结构和关系路径特征的方法。
知识检索与知识分析:基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答,知识图谱和语义技术也被用来辅助做数据分析与决策。
图2 知识图谱的构建流程
知识图谱的构建方式主要有两种,自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
自顶向下:需要先定义好本体(schema)与数据模式,再将实体加入到知识库,基于输入数据完成信息抽取到图谱构建的过程。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。适用于专业知识方面图谱的构建,比如企业知识图谱、面向领域专业用户使用。
自底向上:指的是从一些开放链接的数据中提取出置信度高的实体加入到知识库,再构建顶层的本体模式。更适合常识性知识,比如人名、机构名等通用知识图谱的构建。大多数知识图谱都采用自底向上的方式进行构建,其中最典型的就是Google的Knowledge Vault和微软的Satori知识库。这也符合互联网数据内容知识产生的特点。
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。知识图谱的应用主要集中在搜索和推荐领域。如语义搜索,智能推荐,知识存储,数据校验,专家系统,客服机器人等。
当前基于关键词的搜索技术在KG的知识支持下可以上升到基于实体和关系的检索。它能准确捕捉用户搜索意图,解决关键字语义多样性及语义消歧难题,并且直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
图3 知识图谱在搜索引擎中的应用
问答系统是信息检索系统的一种高级形式,能够以准确简洁的自然语言为用户提供问题的解答。多数问答系统更倾向于将给定的问题分解为多个小的问题,然后逐一去知识库中抽取匹配的答案,并自动检测其在时间与空间上的吻合度等,最后将答案进行合并,以直观的方式展现给用户。
除了优化搜索结果,知识图谱还可以帮助电商以及社交平台解决一些智能推荐问题。例如,当前一些中小平台在智能推荐方面最大的问题是“买了啥,推荐啥”或者“推荐的商品与客户无关联”。推荐商品缺乏新颖性,导致转化效果一般。
知识图谱可以帮助电商平台跳出这种简单的推荐逻辑,使得推荐结果更加智能化,促进用户购买。
关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!