《知识图谱》理解

知识图谱的意义

利用知识图谱为查询词赋予丰富的语义信息，建立与现实世界实体的联系，从而帮助用户更快找到所需的信息。

知识图谱的应用

知识图谱将搜索引擎从字符串匹配推进到实体层面，可以极大地改进搜索效率和效果，为下一代搜索引擎的形态提供了巨大的想象空间。

查询理解。google搜索，在搜索某个单词时，根据知识图谱可以赋予单词的语义信息，搜索引擎更好滴理解用户搜索意图。从而可以展示和该查询词相关的其他信息，更好滴匹配商业广告，提高广告点击率，增加收益。
自动问答。知识图谱可以作为自动问答的知识库。
文档表示。文档表示是NLP中很多任务的基础，如文档分类、文档摘要、关键词抽取等等。经典的文档表示是VSM(Vector Space Model)，将文档表示为词汇的向量，采用BOW(Bag Of Word)假设，没有考虑到文档中词汇的顺序信息，也没有考虑到词汇之间的复杂语义关系。而知识图谱的出现，为文档表示带来新希望，那就是基于只是的文档表示。一篇文章不再用一组没有语义代表词汇的字符串表示，而是由文章中的实体和关系来表示，给文档赋予了语义。最简单的基于知识图谱的文档表示方案是，用文档包含的实体及其关系组成的子图表示文档。
google play movies & tv 应用中添加一个新功能，当用户使用安卓系统观看视频时，暂停播放，视频旁边就会自动弹出该屏幕上任务或者配乐信息。这里用到的技术应该包含图像处理和知识图谱

知识图谱的构建

数据来源主要有：

大规模知识库，维基百科、百度百科等，大量结构化的知识，能较高效第转化到知识图谱中
海量网页，但是知识较杂乱，需要通过一些自动化技术，将其抽取出来

大规模知识库

大规模数据库以词条作为基本组织单位，每个词条对应现实世界中的某个概念

知识图谱的主要技术

实体链指(Entity Linking)

为了帮助人们更好地了解网页内容，很多网站或作者会把网页中出现的实体链接到相应的知识词条上，为读者提供更详尽的背景资料。这种做法实际上将互联网网页与实体之间建立了链接关系，因此被称为实体链指。

实体链指的主要任务有两个：实体识别(Entity Recognition) 与实体消歧(Entity Disambiguation)。

实体识别：从文本中发现命名实体，最典型的包括人名、地名、机构名等三大实体。近些年，还开始尝试电影名、产品名称等更丰富的实体类型。还有研究者剔除除了对实体进行识别，还应对概念（concept）进行识别。

实体消岐：不同环境下的同一实体名称可能对应不同实体。这种一词多义，或者歧义问题普遍存在。将文档中出现的名字链接到特定的实体上，这一过程就做消岐。

实体链指不仅限于实体和实体之间，也包括实体与图像、社交媒体等数据的关联。

关系抽取(Relation Extraction)

可以将所有关系看做分类标签，把关系抽取转换为对实体对的关系分类问题。可以利用机器学习分类模型（如最大熵分类器、SVM等）构建信息抽取系统。
这种关系抽取方案的主要挑战在于缺乏标注语料。2009年斯坦福大学的研究者提出远程监督（Distant Supervision）思想，使用知识图谱中已有的三元组实例启发式地标注训练语料。

远程监督思想的假设是：每个同时包含两个实体的句子，都表述了这两个实体在知识库中的对应关系。例如，根据知识图谱中的三元组实例（苹果，创始人，乔布斯）和（苹果，CEO，库克），我们可以将以下四个包含对应实体对的句子分别标注为包含“创始人”和“CEO”关系：

Paste_Image.png

远程监督方法会引入大量噪声训练样例，严重损害模型准确率。例如，对于（苹果，创始人，乔布斯）我们可以从文本中匹配以下四个句子：

Paste_Image.png

在这四个句子中，前两个句子的确表明苹果与乔布斯之间的创始人关系；但是，后两个句子则并没有表达这样的关系。很明显，由于远程监督只能机械地匹配出现实体对的句子，因此会大量引入错误训练样例。

为了解决这个问题，人们提出了很多去除噪声实例的办法，来提升远程监督性能。例如，研究发现，一个正确训练实例往往位于语义一致的区域，也就是其周边的实例应当拥有相同的关系；也有研究提出利用因子图、矩阵分解等方法，建立数据内部的关联关系，有效实现降低噪声的目标。

知识推理(Knowledge Reasoning)

很多人研究如何自动挖掘相关推理规则或模式。目前主要依赖关系之间的同现情况，利用关联挖掘技术来自动发现推理规则。

利用推理规则实现关系抽取的经典方法是Path Ranking Algorithm（Lao &Cohen2010），该方法将每种不同的关系路径作为一维特征，通过在知识图谱中统计大量的关系路径构建关系分类的特征向量，建立关系分类器进行关系抽取，取得不错的抽取效果，成为近年来的关系抽取的代表方法之一。但这种基于关系的同现统计的方法，面临严重的数据稀疏问题。

参考文献

http://blog.sina.com.cn/s/blog_574a437f0102w2bk.html