前Google杰出工程师阿米特·辛格博士(Amit Singhal)在介绍知识图谱时是这样讲的:“The world is not made of strings , but is made of things.(构成这个世界的是实体,而非字符串)”
本文整理最近关于知识图谱的学习,介绍什么是知识图谱、相关技术、主要应用以及未来的挑战。
一、什么是知识图谱?
知识图谱是揭示实体之间关系的语义网络,以实体(概念)为节点,以关系为边,可用图结构表,用于存储结构化的语义知识库,实现基于推理的概念检索。
更容易理解的定义:知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。
2012年5月Google在搜索页中首次引入“知识图谱”:用户除了得到传统的搜索结果以外,还可以在右侧查看与查询詞有关的更加智能化的答案。随后中国的百度和搜狗也相继推出了搜索知识图谱“知心”和“知立方”来优化搜索结果。如下图在百度搜索“泰山”时,右侧会推荐相关的内容:知名景点、相关地名、中国著名景点,以丰富用户搜索结果页内容,让用户更方面的找到所得。
知识图谱的分类和特点:
二、知识图谱的相关技术
1、知识表示/建模
1)知识表示:通常使用三元组表示,
(E1,R,E2)主要表示实体之间、概念实体之间的关系,比如:(姚明,夫妻,叶莉);
(E, A,V)用来刻画实体内部的特性,比如:(姚明,身高,229CM)。
2)知识建模:一般自顶而下和自底而上两种方式结合。
自顶而下:预先构建本体,依赖从百科类和结构化数据得到。
自底而上:通过搜索日志、Web Table抽取发现的类别、属性和关系,将其合并到知识图谱中。
2、知识抽取
1)结构化info:通过结构转化为三元组
2)半结构化info:通过知识解析为三元组
3)非结构化文本:通过实体概念抽取、属性/关系抽取、消歧形成知识图谱的节点和边。
实体概念抽取的常用方法:基于规则、CRF(传统ML)、BiLSTM(DL)、联合模型。
属性/关系抽取:从非结构化文本中抽取实体关系模式或实体属性特征。常用的方法:基于规则、基于按需抽取Bootstrapping的半监督方法、基于分类的监督方法(SVM、CNN等)、基于无监督发现的方法。
3、KG构建和存储
KG构建即数据的融合,和存储方式相关,主要有两种模式:RDF生成和数据库模式。
RDF生成和存储是生成三元组和存储三元组,优点是:高效查询、归并连接;缺点:空间开销成本大。
数据库模式:可以选择图数据库、NoSQL数据库、关系型数据库等方式来构建和存储。
4、语义解析与映射
词库匹配映射的方式:
短语检测:抽取实体、属性、关系等词库或知识
资源映射:查询到图谱的节点,并对不同的映射方式置信度打分
语义组合:结合图谱形成可能的三元组,并打分排序
结果输出:提出置信度最高的作为语义解析结果输出
5、KG推理
根据知识图谱中的已有知识,推断出新的、未知知识,即潜在知识的挖掘和发现。比如:依据已有知识(张三,父亲,小明),(张洪,父亲,张三),可以推出(张洪,祖父,小明)。
常见的推理技术:基于规则技术(规则或模版、一阶谓词逻辑推理)、表示学习技术、张量分解技术、路径排序算法。
三、知识图谱的应用
知识图谱有哪些用途?
我们这里列举了一些,主要是人工智能相关的一些。
第一个就是用来搜索,这也是Google提出知识图谱的初衷;
第二个就是聊天机器人,比如说微软的小冰,王昊奋老师公司的公子小白;
第三个就是用来做自动问答,有一个贡献非常大的,就是IBM Watson,这在业内非常有名;
第五个还有很多的穿戴设备,它里面也用到了知识图谱相关的技术,比如iWatch里面就用了;
最后一个就是我们出行的助手,国内做的非常好的“出门问问”,它也是用了相关的技术。
四、知识图谱未来的挑战
知识图谱如何在更多行业和场景中更多应用解决实际问题并不断迭代形成自生长的良性闭环。
知识图谱的准确度和覆盖率如何平衡?
行业知识图谱需要由行业专家介入一起建立,未来如何更低门槛启动?
五、主要参考文章
陈虹 知识图谱及其变种在行业实践中的应用与思考
胡芳槐博士 知识图谱关键技术及行业应用解读