知识工程总结

知识工程部分重点内容

  • 1.知识工程的发展简史
    • 知识工程的起源:20世纪50年代-70年代初
      • 图灵奖获得历程
      • 爱德华·费根鲍姆(Edward Feigenbaum)介绍
      • 达特茅斯会议后
      • 1956年
      • 1960年
      • 20世纪60年代-70年代初
      • 1977年
    • 知识工程的兴起与发展:20世纪70年代-90年代
      • 1977年之后
      • 1998年-万维网与连接数据
    • 知识工程新发展时期
  • 2.知识图谱的定义
    • 什么是知识图谱
    • 知识图谱概念演变
  • 3.知识图谱的代表性项目有哪些,特点是什么
    • CYC
    • WordNet
    • ConceptNet
    • FreeBase
    • WikiData
  • 4.常用的知识表示方法有哪些,特点是什么
    • 一阶谓词逻辑
    • 产生式规则
    • 框架系统
    • 语义网络
  • 5.知识图谱的符号化表示(RDF、RDFS、OWL),向量表示(Trans系列算法)
    • 符号表示
      • RDF
      • RDFS
      • OWL
      • Trans系列算法
  • 6.实体识别的三类常用方法,优缺点有哪些
    • 基于模板和规则的方法
    • 基于序列标注的机器学习方法(HMM隐马尔可夫模型和CRF条件随机场)
    • 基于深度学习方法
  • 7.基于序列标注的机器学习方法,HMM、CRF的基本原理
    • HMM
    • CRF
  • 8.关系抽取的三类常用方法,优缺点有哪些(依存句法分析)
    • 基于模板的方法(依存句法分析)
    • 基于传统机器学习的方法
      • 基于特征向量的方法
      • 基于核函数的方法
    • 基于深度学习的方法
  • 9.知识融合两种方式是什么,常用工具有哪些,实体对齐的常用方法有哪些
    • 本体匹配
    • 实体对齐
      • 聚类
      • 表示学习
  • 10.基于关系数据库的存储方案有哪两种,基本原理是什么,优缺点有哪些
    • 水平划分
    • 垂直划分
  • 11.基于图模型的存储有何优点,属性图模型如何存储数据,典型系统是什么
  • 12.SQL查询语句、SPARQL的四种查询形式、Cypher查询语句
    • SQL查询语句
    • SPARQL
    • Cypher查询语句
      • 结果修改器
  • 13.问答系统的发展简史,不同时期的代表性系统或平台
  • 14.知识库问答三种常见方法(基本原理),优缺点有哪些
    • 基于模板的问答方法
    • 基于语义解析的问答方法
    • 基于深度学习的问答方法
  • 15.Elasticsearch系统、gAnswer系统的主要算法框架是什么,优缺点有哪些
    • Elasticsearch
    • gAnswer
  • 16.传统推理的三种形式
    • 演绎推理
    • 归纳推理
    • 溯因推理
  • 17.归纳推理算法PRA,AMIE的基本原理
    • PRA:路径排序算法
    • AMIE:规则挖掘算法
  • 18.嵌入式模型TransE、TransH、TransC的基本原理和优缺点
    • TransE
    • TransH
    • TransC

1.知识工程的发展简史

知识工程的起源:20世纪50年代-70年代初

图灵奖获得历程

1969年,Minsky,感知机和框架知识表示;
1971年,McCarthy,LISP语言、Advice Taker系统;
1975年,Newell和Simon,形式化语言、通用问题求解;
1994年,Feigenbaum,知识工程提出者;
2011年,Judea Pearl,概率图模型之父;
2016年,Berners-Lee,语义网;

爱德华·费根鲍姆(Edward Feigenbaum)介绍

费根鲍姆带领了专家系统的诞生,其由两部分组成:知识库和推理引擎。第一个成功的专家系统Dendral于1968年问世,在1977年被费根鲍姆正式命名为知识工程。其有一句流传甚广的名言:“Knowledge is the power in AI”。
下面介绍一下具体的时间历程。

达特茅斯会议后

参会者们取得了一系列成果,具有代表性的是由A.Newell、J.Shaw和H.Simon等人编制的逻辑机LT ,它证明了38条数学定理,其中Newell和Simon是符号主义学派的代表人物。

1956年

1956年由Samuel研制的具有自学习功能的跳棋程序掀起人工智能发展的第一个高潮。

1960年

1960年又定义了GPS的逻辑推理架构,并提出启发式搜索的思路。

20世纪60年代-70年代初

人工智能迎来第一次寒冷的冬天。

1977年

知识工程诞生,Feigenbaum分析传统人工智能忽略了具体的知识,人工智能必须引进知识。

知识工程的兴起与发展:20世纪70年代-90年代

1977年之后

在知识工程诞生之后,这个领域还在不断往前发展,不断产生新的逻辑语言和方法。美国DEC公司的专家系统XCON在6年内共处理了8万个订单。

1998年-万维网与连接数据

1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网。同时由于自顶向下的设计落地困难,学者们将目光转移到数据本身上来,提出了连接数据的概念。

知识工程新发展时期

2012年是知识图谱的提出,其前身是Freebase,与维基百科同时存在。但维基百科的受众是人,而Freebase则强调机器可读。在被收购后谷歌为其起了个响亮的名字“知识图谱”。

2.知识图谱的定义

什么是知识图谱

知识图谱最早由Google在2012年正式提出,是一种表示现实以及认知世界中各种对象之间关联关系的语义网络,可以对现实世界的实物及其相互关系进行形式化地描述。
知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。由节点和边组成。节点既可以是具体的实物也可以是抽象的概念,边可以用于描述节点的属性,也可以描述节点和节点之间的关系。

知识图谱概念演变

1960年语义网络:语义网络的作用在于表示知识,主要用于自然语言理解领域;
1980s知识表示:提出知识表示方法如:产生式系统、框架系统等/本体论:于人工智能领域引入本体的概念来描述知识;
1989Web:万维网是一个连接信息的系统;
1998语义网:从信息连接到语义网络;
2006连接数据:建立开放的数据之间的链接;
2012知识图谱:谷歌提出知识图谱的概念并应用于智能搜索;

3.知识图谱的代表性项目有哪些,特点是什么

CYC

其特点是基于形式化的知识表示方法来刻画知识,可以支持复杂的推理。

WordNet

其特点是定义名词、动词、形容词和副词间的语义关系,主要用于语义消歧。

ConceptNet

其特点是依靠互联网、专家创建和游戏三种方法来构建,知识库以三元组形式的关系型知识构成,采用了非形式化、更接近自然语言的描述,同时比较侧重词与词之间的关系。

FreeBase

其特点是整合了许多网上的资源,是一个由元数据组成的大型合作知识库。

WikiData

其特点是起结构化数据中央存储的作用,是一个免费开放的知识库。

4.常用的知识表示方法有哪些,特点是什么

一阶谓词逻辑

其特点是自然性、严密性和易实现性,但其表达能力有限、易出现组合爆炸以及效率低。

产生式规则

其特点是自然性、模块性、有效性和清晰性,但其不能表达结构性知识、易出现组合爆炸以及效率低。

框架系统

其特点是对知识的描述完整全面和允许数值计算,但其构建成本非常高、对知识库质量的要求非常高以及表达形式不灵活。

语义网络

其特点是自然性、结构性和联想性,但其非严格性、不能保证推理正确以及处理上很复杂。

5.知识图谱的符号化表示(RDF、RDFS、OWL),向量表示(Trans系列算法)

符号表示

RDF

RDF由(Subject(主),Predicate(谓),Object(宾))三元组组成。

RDFS

其包含Class(类),subClassOf(子类),type(类型),Property(属性),subPropertyOf(子属性),Domain(定义域),Range(值域)。

OWL

理想情况下,OWL应该是RDFS的一个扩展,其表达构件有等价性声明、声明属性的传递性、声明两个属性互反、声明属性的函数性、声明属性的对称性和声明属性的局部约束:全称限定。

Trans系列算法

TransE对每个事实(head,relation,tail)将relation看做从head到tail的翻译操作,其优化目标为h+r=t,当三元组(h,r,t)符合h+r≈t时三元组成立。

6.实体识别的三类常用方法,优缺点有哪些

基于模板和规则的方法

其优点是当词汇表足够大时,能够取得不错效果;缺点是总结规则模板花费大量时间,词汇表规模小,且实体识别结果普遍高精度、低召回。

基于序列标注的机器学习方法(HMM隐马尔可夫模型和CRF条件随机场)

HMM更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用;CRF特征灵活,但收敛速度慢,训练时间长。
整体对特征选取的要求高,对语料库的依赖大,可用的语料库较少。

基于深度学习方法

其优点是强大的向量表示能力,神经网络强大的计算能力以及端到端的训练方式。

7.基于序列标注的机器学习方法,HMM、CRF的基本原理

HMM

HMM是有向图模型,由隐状态序列指向观察输出序列,同时假设特征之间是独立的。其任意时刻的隐藏状态只依赖于它前一个隐藏态,且任意时刻的观察状态只依赖于当前时刻的隐藏态。

CRF

随机场是给每个位置按照某种分布都随机赋予一个值,马尔科夫随机场是假设随机场中某一个位置的赋值仅与其相邻位置的赋值有关,CRF则假设马尔科夫随机场中只有X和Y两种变量:X是给定的,Y是在给定X条件下的输出。

8.关系抽取的三类常用方法,优缺点有哪些(依存句法分析)

基于模板的方法(依存句法分析)

其优点是在小规模数据集上容易实现,构件简单;缺点是特定领域的模板需要专家构建、难以维护、可移植性差以及规则集合小的时候召回率低。

基于传统机器学习的方法

基于特征向量的方法

其优点是可解释性好;缺点是特征的选择更多依靠构建者的直觉和经验,特征项的选择组合是有限的,无法表示指定语义关系。

基于核函数的方法

其优点是处理高维问题计算代价低,求解的是凸优化问题,核矩阵展现输入在特征空间中相对位置的信息;缺点是随着性能要求的提升,核函数的复合更为复杂,导致训练和测试过慢,对于大规模数据处理能力差。

基于深度学习的方法

同问题6。

9.知识融合两种方式是什么,常用工具有哪些,实体对齐的常用方法有哪些

知识融合的两种方式是本体匹配和实体对齐。

本体匹配

常用工具为Falcon-AO,是一个自动的本体匹配系统。

实体对齐

常用工具为Dedupe库(Python)以及Silk系统。
相似度计算的常用方法有聚类和表示学习。

聚类

包含层次聚类、相关性聚类和Canopy+K-means聚类。

表示学习

知识嵌入:将实体和关系映射为低维向量,用表达式来获得实体间相似度。不依赖文本信息,只获取数据的深度特征。

10.基于关系数据库的存储方案有哪两种,基本原理是什么,优缺点有哪些

水平划分和垂直划分。

水平划分

基本原理是使用一张N+1列数据表存储RDF数据集(N为数据集中不同谓词数目),基于主语对RDF数据集进行划分,每行记录主语的所有谓语和宾语,宾语不存在时使用空值填充。
其优点是将同一主语所有数据存储在一行,有利于星型SPARQL查询;Join减少了,接近于关系数据库。缺点是数据表中可能存在大量空值,引入了存储和查询额外空值的开销;数据表中列数目等于RDF中不同谓语数量,可能超过关系数据库所允许的表中列数目上限。

垂直划分

基本原理是使用N张两列表存储RDF数据集(N为数据集中不同谓词个数),基于谓词对RDF数据集进行划分,表中每行是该谓词连接的一对主语和宾语。
其优点是仅存储出现在RDF数据集中的三元组,不存储空值;解决了多值问题;基于主语排序,能使用归并排序连接快速执行Join。缺点是两列表数目与谓语个数相等,数量较大时难以维护;对于具有n条边的SPARQL查询,需要读取n张数据表,执行n-1次Join。

11.基于图模型的存储有何优点,属性图模型如何存储数据,典型系统是什么

优点是自然表达易于建模,便于扩展,关系查询高效以及多跳优化。
属性图模型由顶点集和边集组成:节点可以有一个或多个标签,一组属性,每个属性是一个键值对;边有一个类型和方向,也可以有属性。
属性图模型的典型系统是neo4j。

12.SQL查询语句、SPARQL的四种查询形式、Cypher查询语句

SQL查询语句

SQL结构化查询语言,是关系数据库的标准语言,其查询只用SELECT:
1.查询全体学生的学号与姓名
SELECT Sno,Sname
FROM Student;
2.查询全体学生的详细记录
SELECT *
FROM Student;
3.查询经过计算的值
SELECT Sname,2004-Sge
FROM Student;
4.比较大小
SELECT Sname,Sage
FROM Student
WHERE Sage < 20;
WHERE后还可加(NOT)BETWEEN…AND…;Sx =/(NOT)LIKE ’ ',字符串可以是固定的,可以含通配符:刘%,欧阳__,__阳%。

SPARQL

其四种查询形式分别为:SELECT(任意返回),CONSTRUCT(返回RDF),ASK(返回yes/no),DESCRIBE(返回与给定图形模式匹配的节点的所有信息)

Cypher查询语句

MATCH+WHERE+RETURN
MATCH (emp:Employee)
WHERE emp.name = ‘Abc’
RETURN emp

结果修改器

1.MATCH+SET+RETURN
MATCH (dc:DebitCard)
SET dc.atm_pin = 3456
RUTURN dc
2.MATCH+RETURN+ORDER BY
MATCH (emp:Employee)
RETURN emp.empid,emp.name,emp.salary,emp.depyno
ORDER BY emp.name DESC
3.MATCH+RETURN+LIMIT
MATCH (emp.Employee)
RETURN emp
LIMIT 2
4.MATCH+WHERE+IN+RETURN
MATCH (e:Employee)
WHERE e.id IN [123,124]
RETURN e.id,e.name,e.sal,e.deptno

13.问答系统的发展简史,不同时期的代表性系统或平台

1960:基于模板的问答专家系统(BaseBall,LUNAR,MACSYMA,SHRDLE)
1990:基于信息检索的问答(MASQUE TREC)
2000:基于社区的问答(YAHOO,百度,知乎)
2010:基于知识图谱的问答(WolframAlpha)

14.知识库问答三种常见方法(基本原理),优缺点有哪些

基于模板的问答方法

主要流程为模板定义、模板生成和模板匹配。
其优点是模板查询响应速度快;准确率较高,可以回答相对复杂的问题。缺点是人工定义的模板容易无法与真实的用户问题进行匹配;若要匹配一个问题的不同表述,则需要建立庞大的模板库,耗时且查询效率低。

基于语义解析的问答方法

主要流程为资源映射、Logic Form、候选答案生成和排序。
其优点是可以回答较为复杂的问题,例如时序性问题。缺点是人工编写规则工程量大。

基于深度学习的问答方法

其优点是无需人工编写规则定义模板,整个学习过程都是自动进行。缺点是只能处理简单题和单边关系问题,且深度学习方法不包含聚类操作,无法应对时序性问题。

15.Elasticsearch系统、gAnswer系统的主要算法框架是什么,优缺点有哪些

Elasticsearch

Elasticsearch是基于Lucene开发的分布式搜索框架。
其优点是分布式索引、搜索;索引自动分片、负载均衡;自动发现机器、组建集群;支持Restful风格接口;配置简单。缺点为只支持简单的自然语句查询,无法回答复杂的问题;在添加新数据与新字段的时候,进行搜索可能需要修改格式;Elasticsearch是基于符号逻辑的,符号匹配会造成语义鸿沟。

gAnswer

gAnswer使用关系优先框架和结点优先框架将消歧和查询评估结合在一起:其中关系优先框架解决了歧义问题,结点优先框架解决了查询的模糊性。
其优点是在问题理解阶段允许歧义,在查询评估阶段消歧;有效地解决了模糊问题。缺点是难以解决复杂问题。

16.传统推理的三种形式

演绎推理

从一般的前提出发通过推导得出具体结论的过程(从一般到特殊)。

归纳推理

通过观察客观事实进而总结和归纳抽象知识的推理过程(从特殊到一般)。

溯因推理

将抽象的规则知识与观察现象结合,寻找可能原因的推理过程。

17.归纳推理算法PRA,AMIE的基本原理

PRA:路径排序算法

通过实体间存在的路径判断实体间是否存在指定关系,具体流程是特征抽取、特征计算以及分类器训练:
1.先对于给定关系生成训练样例,包含正例和负例;
2.从知识图谱采样得到正例和负例的路径,每一路径连接每个样例中的两个实体;
3.对于每个样例,判断步骤2中所有路径是否能连接其包含的两个实体,将可以记为1和不可以记为0作为特征,故每一个样本都能得到一个n维特征向量(n为2中路径总数);
4.依据训练样本,训练分类器M;

AMIE:规则挖掘算法

从不完备的知识库中挖掘规则,具体算法是对于每种关系,从规则体为空开始,通过三种扩展操作(添加悬挂边、添加实例边、添加闭合边),保留支持度大于阈值的规则。评价准则为支持度(同时符合规则体和规则头的实例数目)、置信度(支持度除以仅符合规则体的实例数)和PCA置信度(只将满足规则替补并且存在的三元组才计入分母,考虑了知识图谱的不完备性)。

18.嵌入式模型TransE、TransH、TransC的基本原理和优缺点

TransE

把每个三元组(h,r,t)中的关系r看作从实体h到实体t的翻译,通过不断调整h、r和t,使(h+r)和t尽可能相等。
其优点是简单有效,但缺点是存在自反性问题和只适合处理一对一问题,不适合处理一对多、多对一和多对多复杂关系。

TransH

对于每一个关系,都定义一个超平面Wr和一个关系dr,将三元组中的头尾实体分别映射到该超平面中。
其优点是每个实体在不同的关系下有不同的表示,缺点是仍然假设实体和关系处于相同的语义空间中。

TransC

将每个概念编码为球体,将每个实例编码为向量,在相同的语义空间中,使用相对位置对概念和实例、概念和子概念之间的关系进行建模。
其优点是将概念和实例进行了区分,缺点是用球来表示概念,简单模型过于幼稚,存在一定的局限性,一个概念在不同的三元组中可能有不同的含义。

你可能感兴趣的:(知识图谱,sql)