知识图谱之入门篇

知识图谱大体概念

最近在看知识图谱方面的知识,补了很多知识,现在基本有个大体上的了解,记录于此。
首先,为什么会提出知识图谱的概念?这是自万维网之后,所有的网页或者说文本都被链接了,这就是现在我们的互联网。但是万维网的创始人,叫Tim Berners-Lee,又提出了语义网的概念,大概也就是现在所谓的知识图谱吧,链接的不再是文本(html),而是知识。
在到后来,其实知识图谱的正式提出和实用应该是谷歌,谷歌有个概念值得玩味:Things not strings。这个感觉有点抽象,不过想想还是能明白的。然后国内百度和搜狗也有知识图谱的项目,使得搜索显得更智能,举个简单的例子搜索:姚明的身高是多少?结果:知识图谱之入门篇_第1张图片
可以看到最上面,百度直接给我们返回了229cm这个答案,右边有相关人物,有他的女儿等相关人,这背后就是在百度的知识图谱中存在姚明这个节点,有他的许多的属性和相关联的节点,因为按正常的搜索,返回的应该是一个网页,类似下面的百度知道,有人提问:姚明的身高是多少?然后有人回答答案,这是百度基于爬取的网页后全文检索的结果。

知识谱图相关技术

要实现这样的知识图谱,任务还是很艰巨的。首先这样的知识应该如何表示?这样的知识从哪里来?应该如何存储?如何提供快速的搜索?
首先,这样的知识可以用三元组的形式表示,(主,谓,宾)的形式,用来描述两个事物之间的关系(姚明和女儿是父女关系),或者描述事物的属性(姚明的身高是229CM)。三元组可以很好的表示知识。然后有个叫RDF(Resource Description Framework)的东西,中文叫资源描述框架。它是由W3C推荐的标准。今天这篇是入门,只涉及主要的概念,具体的就不多啰嗦了(其实还有RDFS,OWL,本体等很多相关概念……)。然后就是要回答知识从哪来?如果是开放域的问题,这个问题更加棘手,现在的一些只是谱图我的理解都是从各大百科抽取词条以及相关的属性知识,但是所有的词条也不能代表所有的知识,只能说现在知识图谱项目,只有更大没有最大,知识无法被穷尽(哲学上是不是要批判我这种?不可知论?我并不是知识无法被学习被了解这个意思哈)。但是我相信特定领域应该是可以把知识图谱做的相对比较全的,至少普通用户够用的程度。知识获取应该是知识图谱相中比较难得,术语好些是知识抽取与挖掘,涉及到的东西也很多,对于特定领域肯定是需要投入相对一部分人去人工整理和校正知识。
然后加入我们有了这些个知识,我们应该如何存储才能被高效的使用?这个方面我现在还没有怎么弄太明白,好像传统的关系型数据库也是可以的存储的,但是就不太高效检索了,基本应该是走图数据库的方向。图数据库的具体实现我也没有去了解,但是前人也已经造了很多轮子,Jena这个开源项目就是用来干这个的(后面会介绍怎么用)当然还看到个北大的开源项目gStore,好像也不错,都可以试试。
在完成了前面的所以的工作后,后面的工作才能展开,知识推理,语义搜索,知识问答,最后才是知识的智能表示。这里想说下知识图谱存储的数据和传统数据库存储的数据的区别,我觉得知识图谱存储的准确的来说是知识,是可以推理的,即基于原有的存储内容产生新的新的内容(基于推理得到),而传统的数据,基于关系的数据库,虽然表的属性之间也有一定的关系,基于外键也可以有关联,但是这种关系是没法快速和高效的提供结果的,后面介绍。

总结:

1.介绍了知识图谱大概可以用来干什么。
2.介绍了知识图谱相关的技术概念,知识抽取与挖掘的概念,知识表示,知识存储,只是推理,语义搜索等

你可能感兴趣的:(知识图谱,知识图谱)