1.什么是知识图谱
知识图谱是谷歌用来支持语义角度组织网络数据,从而提供智能搜索的知识库。是通用的语义知识的形式化描述框架,用结点表示语义符号,边表示符号之间的关系。
用三元组形式描述和存储知识:如
知识图谱表示为 G={E,R,S},其中E={e1,e2,···e|E|}表示实体集合,R={r1,r2,···,r|R|}表示关系集合。S⊆R×E×E表示三元组的集合。
三元组描述一个事实,由头实体,尾实体和描述这两个实体之间的关系组成。有些关系也称为属性,相应地,尾实体称为属性值。从图结构看,实体是知识图谱的节点,关系是连接两个节点的有向边。
2.知识图谱发展历程
知识库在人工智能和语义网领域的目标可以总结为知识的数据化(让计算机表示、组织和存储人类的知识)和数据的知识化(让数据支持推理、预测等智能任务)。
3.知识图谱类型
知识的分类:
(1)根据知识的主客观性,分为事实性(客观性)知识和主观性知识(我认为)
(2)根据知识的变化性质,分为静态知识(出生日期不变)和动态知识(美国总统变)。
(3)领域知识,百科知识,场景知识(订机票的场景下的信息),语言知识(减肥和瘦身是同义词),常识知识(狗有四条腿)。
知识图谱分类:
语言知识图谱:WordNet(由同义词集和描述同义词集之间的关系构成),中文知网HowNet。
常识知识图谱:Cyc(/ˈsaɪk/实体和关系以及支持推理的常识规则构成),ConceptNet(概念以及描述他们之间关系的常识构成)
领域知识图谱:医学知识图谱SIDER,电影知识图谱IMDB
百科知识图谱:Freebase、DBpedia、YAGO、Wikidata
传统构建知识图谱的方法主要基于专家知识(众包数据),随着机器学习技术发展,许多知识图谱使用自动构建知识图谱的方法,如NELL、Knowledge Vault(Google 2014年创建的大规模知识图谱)
4知识图谱生命周期
(1)知识体系构建:构建一个本体描述目标知识。核心即资源描述框架(RDF),RDF包括三个对象类型:资源(Resource)、谓语(predicate)及陈述(statements)
资源:能使用RDF表示的对象即资源、如实体、事件和概念。
谓语:描述资源本身特征和资源之间关系。谓语可定义元数据(谓语头尾数据类型,与其它谓语关系)
陈述:即RDF三元组<主体(subject),谓语(predicate),宾语(object)>。谓语可以表示主体属性,也可以表示主体与宾语之间关系,当谓语表示一个属性时,宾语就是属性值,当表示关系时,宾语就是一个资源。
(2)知识获取:从文本数据中通过信息抽取获取知识,构建三元组。
①结构化数据
优点:置信度高,数据质量可靠;缺点:数据规模小,不容易获得。
②半结构化数据(具有一定层次和模式,但不能通过固定模板直接获得结构化数据)
优点:置信度较高,规模比较大;缺点:样式多变且含有噪音,很难用人工模板抽取。
③非结构化文本数据(自然语言文本数据,如 “姚明1981年出生在上海”)
从纯文本数据中获取知识称为文本信息抽取,包括如下基本任务:实体识别、实体消歧、关系抽取以及事件抽取。
实体识别:从文本中识别实体,确定实体的前后边界,确定实体的类别。(姚明,人名)
实体消歧:消除指定实体的歧义。(李娜是打网球的李娜,不是跳水的李娜;孙悦是唱歌的孙悦,不是打篮球的孙悦)。实体消歧的任务分为实体链接和实体聚类。实体链接就是将一个实体指称项链接到知识图谱的一个已有实体上。实体聚类假设知识图谱中没有已确定的实体,在给定语料库的前提下,通过聚类使相同所指的实体指称项被聚为同一类别。
关系抽取:获取两个实体之间的语义关系。语义关系可以是一元关系(实体的类型)、二元关系(实体的属性)及更高阶关系。关系抽取任务有:关系分类(判断一句话中两个实体的关系)、属性抽取(已知一个实体和关系,判断另一个实体) 、关系实例抽取(“姚明”,“上海”判断关系)
事件抽取:从描述事件的文本中抽取结构化的事件信息。
(3)知识融合 :将两个知识图谱融合。包括知识体系的融合和实例的融合
(4)知识存储:如何存储知识图谱①RDF格式存储(一行一个三元组,搜索效率低)②图数据库Neo4j
(5)知识推理: 挖掘两个实体之间隐含的语义关系,即知识图谱补全。
自动问答系统
5 知识图谱与深度学习
基于深度学习,把处理对象表示为数值(标量、向量、矩阵),通过数值计算完成各种语义计算。
问题:(1)依赖大量标注数据
(2)不可解释且不可调控
(3)难加入先验知识
探索1,词的表示学习:词表示为分布式向量(上下文相似的词,语义也相似)。问题:不能区分近义词还是反义词
探索2,知识图谱表示学习:将知识图谱的实体和关系投影到低维向量空间中,体现实体和关系的语义信息。问题:隐含表示方式,不易被理解,难以干预推理过程和增加先验知识。
探索3,神经符号机:神经网络与符号推理相结合的技术。