这篇文章的目的就是给不了解知识图谱的人做一个简单的科普。
一、什么是知识图谱
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。--- 百度百科
知识图谱2012年由谷歌提出,最早应用在其搜索引擎中。以下图为例,在google中搜索Da Vinci,除了返回包含Da Vinci字样的网页,还能了解有关Da Vinci的新闻,Da Vinci相关的各种信息,以及拓展Da Vinci各种信息(我们一下图红框部分为例)等。
红框部分是使用图谱技术做的只是卡片,通过卡片展示了Da Vinci的各种信息,包括画作的图片推荐,介绍,地址、亲属关系、艺术作品等。
这些信息展现在知识图谱里是一种怎样的形式呢?我们来看一下:
这些信息通过普通的技术进行展示会十分麻烦而且扩展性也会比较差。使用图谱技术就可以简单的 实现图中信息的展示需求,而且通过知识图谱可以不断挖掘很多潜在的信息。
美国社会心理学家斯坦利-米尔格兰姆通俗地说,你和世界上任何人之间所间隔的关系不会超过六度,也就是说最多通过六个人你就能够认识任何一个陌生人。所以在社交上使用知识图谱技术,斯坦利-米尔格兰姆的理论就可以轻易的得到验证,让每一个人都可以发现自己的社交网络到底有多么强大。
二、知识图谱构建:
说了这么多,知识图谱是如何被构建的呢?为了更好的解释知识图谱的构建,我们模拟一个简单的场景来说明:
小乐打开某猫的手机应用,在页面上看到了某宝给她推荐的商品——安热沙(一种防晒霜),正是她喜欢用的一种,但却十分好奇为什么某猫怎么就知道她喜欢这个产品呢?原因很简单,某宝已经在其系统中构建好了如图所示的知识图谱了。
图谱构建主要包含三个部分,知识抽取,知识融合和知识存储。 之后才可以进行知识的发掘。
(1)知识抽取
知识抽取会从大数据中抽取大量的实体和关系。大数据表示数据的来源非常广泛并且数量庞大。
数据源可以是平时大家阅读的书籍,文献资料,可以是类似于excel表格的结构化的数据,可以是网页的数据(比如简书的一片文章),可以是图片,语音。
从这些数据源中提取文本信息再基于自然语言处理技术,抽出其中的实体,关系和勾画它们的属性信息。
如果某天小乐在简书中写道,“小露昨天晚上在某猫上购买了安热沙”。知识图谱就可以从这句话抽出两个实体——小乐和安热沙,一个关系——购买,和勾画购买这个关系的属性——时间是晚上,地点在某猫。
(2)知识融合:
小乐不仅在简书中如此写道,还在微博上发了一条信息,“矿泉水昨天晚上在某宝购买了安热沙”。
事实上小露和矿泉水指的是同一个人,只是昵称不同,这在语义上产生了冗余。此时就需要对这两条信息做融合,而融合时用到的工具是“本体”。
本体表达事物的本质,它不因事物的表象的变化而不同。利用本体进行知识的融合就可以获得高质量的知识了。
(3)知识存储:
获得了高质量的知识。人们会将知识存储在大脑当中,而机器则会将知识存储在类似大脑的图数据库之中。图数据库顾名思义其实就是存储图结构数据的数据库。
三、知识图谱应用:
推荐:
回顾之前的场景。某宝构建了如图所示的知识库。小乐购买过曼秀雷敦,小露购买过安热沙,曼秀雷敦和安热沙同属于防晒霜,而小乐和小露又是很好的朋友。那么就有道理推理出小乐很可能会购买安热沙,于是就可以在小乐和安热沙之间构建起“可能购买”的关系。这样在小乐登录某宝时就,某宝可以给小乐推荐商品了。
反欺诈案调:
在金融领域非常重要的一个环节就是反欺诈案调,传统的方法做案调是非常困难的,对于团伙欺诈的判别是非常困难的,使用知识图谱技术就可以很容易的发现目标客户周边人员情况以及其周边人员历史进件情况,业务人员通过观察目标客户的子图就可以方便直观的对目标客户的欺诈情况进行判断。
企业信息展示:
通过知识图谱可以很直观的对企业的法人信息,参股信息,企业经营状况,企业大事件等信息进行直观展示,以实现人们对一个公司状况的直观快速了解。
通用知识图谱搜索:
以影视为例,如果我们搜索一个导演冯小刚,展示区域就会出现一个“冯小刚实体”,同时展示他周边一度重要信息的提示搜索按钮,如果我们想知道他导演过哪些电影,点击相应的按钮,他所导演的所有电影信息就会展示出来,进一步如果我们对某一个电影感兴趣,想看下某个电影的主演是谁,继续在相应电影的实体上点击相应按钮,就会展示某个电影的演员信息。 以此类推,可以实现人们对所要查询信息的全方位深入展示。
智能客服:
在人工智能技术被越来越广泛使用的今天,智能客服已经可以在很大程度上满足了人们对产品信息咨询的需求,大大的节省了人力物力,知识图谱技术在智能客服上的应用可能会更进一步的提高智能客服的精准度, 以下图为例,如果问的问题是:“温柔陷阱的作者是谁?” 通过图中的实体与边的关系就很容易的得出我们想要的答案,在数据足够丰富与精确的情况下,基于知识图谱的智能客服系统的精准度极有可能是要优于传统实现的技术的,在知识图谱技术在越来越被广泛使用的今天,相信不久的将来我们就能看到智能化程度、精准度更高的智能客服技术。
对于知识图谱的应用方向涉及到生活中的方方面面-----医疗行业(知识库、病例库、诊疗方案库、KBQA)、电商(推荐引擎6)、互联网金融(反欺诈、实时授信、催收管理、失联修复)、社交网络、机器学习、深度学习等。在这里就不逐一举例。总之,知识图谱使得人工智能可被理解和解释,所以知识图谱有着非常广泛的应用前景等待着人们去探索发现。