B. 知识图谱 知识表示(二)

B. 知识图谱 知识表示(二)

早期的知识表示方法

  • 命题逻辑
    • 优点
    • 缺点
    • 算法
      • 穷搜:找出所有的组合,然后判断是不是符合所有的逻辑规则
      • 归结算法
      • Horn子句和限定子句:前向链接和后向链接算法
      • 启发式搜索算法:DPLL
      • 随机搜索算法
  • 一阶谓词逻辑:不同于命题逻辑,一阶逻辑支持量词和谓词
    • 优点
      • 结构性:能把事物的属性以及事物间的各种语义联想显示地表示出来
      • 严密性:有形式化的语法和语义,以及相关的推理规则
      • 可实现性:可以转换为计算机内部形式,以便用算法实现
    • 缺点
      • 有限的可用性:一阶逻辑的逻辑归结只是可判定性的
      • 无法表示不确定性知识
    • 句法
      • 基本句法
        • 对象:常量符号
        • 关系:谓词符号
        • 函数:函词
      • 量词
        • 全称量词
        • 存在量词
        • 嵌套量词
      • 等词
    • 算法
      • 一般化假言推理规则
      • 合一
      • 前向连接
      • 反向链接
      • 归结
  • 霍恩(Horn)子句和霍恩逻辑
    • 优点
      • 结构性:能把事物的属性以及事物间的各种语义联想显示地表示出来
      • 严密性:有形式化的语法和语义,以及相关的推理规则
      • 易实现性:可判定,可以转换为计算机内部形式,以便算法实现
    • 缺点
      • 有限的可用性:一阶逻辑的逻辑归结只是可判定性的
      • 无法表示不确定性知识
  • 语义网络
    • 优点
      • 联想性:它最初是作为人类联想记忆模型提出来的
      • 易用性:直观地把事物的属性及其语义联系表示出来,便于理解,\n自然语言与语义网络的转换比较容易实现,故语义网络表示法在自然语言理解系统中的应用最为广泛
      • 结构性:语义网络是一种结构化的知识表示方法,对数据子结构图特别有效。\n它能把事物的属性以及事物间的各种语义联想显示地表示出来。
    • 缺点
      • 无形式化语法:语义网络表示知识的手段多种多样,虽然灵活性很高,\n但同时也由于表示形式的不一致提高了对其处理的复杂性。
      • 无形式化语义:与一阶谓词逻辑相比,语义网络没有公认的形式表示体系。\n一个给定的语义网络表达的含义完全依赖处理程序如何对它进行解释。\n此外,目前采用量词(包括全称量词和存在量词)的语义网络表示法在逻辑上是不充分的,\n不能保证不存在二义性。
  • 框架
    • 基本思想:认为人们对现实世界中各种食物的认识都以一种类似于框架的结构存储在记忆中
    • 优点
      • 结构性:能把事物的属性以及事物间的各种语义联想显示地表示出来
      • 框架对于知识的描述比较全面,支持默认值以及触发器
    • 缺点
      • 框架构建成本非常高,对知识库的质量要求非常高
      • 默认值会增大推理的复杂度
      • 无法表示不确定性知识
  • 描述逻辑:描述逻辑可以被看成是利用一阶逻辑对语义网络和框架进行形式化的产物\n描述逻辑支持一元谓词(类)和二元谓词(关系)
    • 优点
      • 结构性:能把事物的属性以及事物间的各种语义联想显示地表示出来
      • 严密性:有形式化的语法和语义,以及相关的推理规则
      • 多样性:具有大量可判定的扩展,以满足不同应用场景的需求
      • 易实现性:可判定,可以转换为计算机内部形式,以便用算法实现
    • 缺点
      • 有限的表达能力:不支持显式使用变量,不能够任意使用量化
      • 无法表示不确定性知识

互联网时代的语义网知识表示框架

  • W3C关于语义网标准的分组
    • 表示组
      • 标识符:URI 和 字符集:Unicode
      • 语法:XML
      • 数据交换:RDF
    • 推理组
      • 分类法:RDF-S
      • 本体:OWL
      • 规则:RIF
      • 统一逻辑
    • 查询组
      • 查询:SPARQL
    • 信任组:加密、验证、信任
    • 用户交互组:用户界面与应用程序
  • RDF和RDFS — 开放世界假设
    • RDF:主谓宾,其中主语和宾语看成图的节点,谓语看成是边
    • RDFS
      • rdf:type:用于指定个体的类
      • rdf:subClassOf:用于指定类的父类
      • rdf:subPropertyOf:用于指定属性的父属性
      • rdf:domain:用于指定属性的定义域
      • rdf:range:用户指定属性的值域
    • 缺点
      • 对于局部值域的属性定义:rdf:range定义了属性的值域,该值域是全局性的
      • 类、属性、个体的等价性:无法声明两个类或多个类、属性和个体是等价还是不等价的
      • 不相交类的定义:比如说男人和女人都是人的子类,但无法声明这两个类是不相交的
      • 基数约束:对取值范围的约束
      • 关于属性特性的描述:如传递性、函数型、对称性,以及声明一个属性是另一个属性的逆属性等
  • OWL
    • OWL 1.0:OWL Lite、OWL DL、OWL Full三个子语言
      • 重要词汇
        • 等价性声明:声明两个类、属性和实例是等价的
        • 属性传递性声明:声明一个属性是传递关系
        • 属性互逆声明
        • 属性的函数式声明
        • 属性的对称性声明
        • 属性的全称限定声明
        • 属性的存在限定声明
        • 属性的基数限定声明
        • 相交性声明
        • 声明枚举类型
        • 声明两个类不相交
        • 声明类的并运算
        • 最小基数限定和最大基数限定
        • 声明互反类具有函数属性
        • 属性的局部约束时,声明所约束类必有一个趋势
    • OWL 2.0:OWL2 RL、OWL2 QL、OWL2 EL三个子语言
  • 知识图谱查询语言的表示 — SPARQL
    • 查询基本构成
      • 变量,RDF中的资源,以"?“或者”$"指示
      • 三元组模板,在Where子句列出关联的三元组模板,之所以称为模板,因为三元组中允许存在变量
      • Select 子句中指示要查询的目标变量
    • 常见的查询算子
      • OPTIONAL:可选算子
      • FILTER:过滤算子
      • UNION:并算子
  • 语义Markup表示语言:JSON-LD、RDFa、HTML5 MicroData

常见开放域知识图谱的知识表示方法

  • Freebase:对象-Object,事实-Facts,类型-Types,属性-Properties
  • Wikidata:页面-Pages,实体-Entities,条目-Items,属性-Properties,\n陈述-Statements,修饰-Qualifiers,引用-Reference等
  • ConceptNet5:概念-Concepts,词-Words,短语-Phrases,\n断言-Assertions,关系-Relations,边-Edges等

知识图谱的向量表示方法

  • 词的向量表示方法
    • 独热编码(One-Hot Encoding)
    • 词袋模型
    • 词向量
      • Count-based:基于计数的方法,简单说就是记录文本中词的出现次数
      • Predictive:基于预测的方法,既可以通过上下文预测中心词,也可以通过中心词预测上下文
      • Task-based:基于任务的,也就是通过任务驱动的方法。
  • 知识图谱嵌入的主要方法
    • 转移距离模型
    • 语义匹配模型
    • 考虑附加信息的模型
  • 知识图谱嵌入的应用
    • 链接预测
    • 三元组分类
    • 实体对齐
    • 问答系统
    • 推荐系统

用户定性画像

  • 标签体系
    • 核心问题:
      • 如何定义和表示标签?包括标签名称、标签类别、标签值的取值范围等
      • 如何解释标签?主要是对标签的语义信息进行描述,从语义上给出标签的解释
      • 如何推理标签?主要是定义相应的推理规则,从而实现标签之间的推理
      • 如何验证标签?包括标签的定义是否合理,标签关系是否一致、正确性等
    • 其他
      • 基于标签的基础之上,对用户进行调研,根据目标、行为和观点的差异,将用户区分为不同的类型,在每种类型中抽取出典型特征
  • 基于知识的用户定性画像分析
    • 知识工程:利用本体对用户画像中的标签进行表示、验证、推理和解释等。具体来说,包括对用户和视频的标签,以及它们之间的关系进行形式化的表述,从语义层面描述视频、用户及其兴趣特征
    • 本体论:哲学上的一个学科,是研究客观事物存在和组成的通用理论。知识工程中的本体侧重对特定工程领域中的知识进行建模,提供某个专业领域中概念的词表,以及概念间的关系,是在语义层次对信息进行的形式化描述,从而形成一个庞大而有效的知识网络
    • 工程实践
      • Uschold骨架法
        • 首先确定本体应用的目标和范围
        • 然后经过本体的分析、表示、评价等过程,进一步判断本体是否符合要求
      • Methontology
        • 管理阶段:本体开发的设计、控制和质量保证
        • 开发阶段:包含规格说明、概念化、形式化和执行
        • 维护阶段:知识获取、系统集成、知识评价、产生文档和配置管理
    • 本体开发工具
  • 用户定性画像的构建
    • 本体结构:类(包含若干子类,形成一定的类层次结果)、属性、实例、公理和推理规则
    • 工程实践:标准化的表达方式和规范化的工作步骤
      • 构建过程
        • 需求分析:要解决的问题进行详细的分析,弄清楚问题的要求,包括需要输入什么数据,最后应输出什么确定将要覆盖的专业领域、范围和应用目标,本体应该在哪些方面发挥作用
        • 信息的收集和处理,包括当前数据范围内存在的资源。在此基础上,将与视频,以及用户相关的资源进行读取、整理、分析,提取出分类、属性和对应的属性值,并添加相应的公理和约束。
        • 根据信息处理结果和本体范围,按照文档化的信息内容,利用本体描述语言和本体构建工具进行本体的构建。构建过程中需要遵循一定的原则:
          • 尽可能使用标准术语
          • 本体应当保持前后一致,即支持与其定义相一致的推理
          • 本体将提供一个可共享的词汇表,这个可共享的词汇表可以为预期的任务提供概念基础
          • 本体构建过程中应当使用多种概念层次,同层次的概念之间应当保持最小的语义距离并采用多种继承机制来增强表达能力
      • 关键步骤
        • 构建领域词汇表:在设计的过程中,需要考虑知识共享
          • 收集所有有用的领域概念、属性和实例等,这些词汇对应用户画像中的各类标签。
          • 领域词汇表一般包括:类词汇表、属性词汇表(对象属性词汇表和数据属性词汇表)
        • 构建类与类之间的结构
          • 领域概念的分类层次是将概念进行分类组织,用于描述领域概念间的类属关系。
          • 设计方法:自顶向下、自底向上和综合法
        • 定义属性
          • 对象属性:约束两个类实例间的关系
          • 数据属性:约束类的实例
        • 定义实例
          • 如何类和属性是本体的骨骼,实例则是本体的血肉
        • 定义约束公理和推理规则
          • 本体的约束公理是OWL语言类公司的核心部分
  • 定性画像知识的存储
    • Jena
  • 定性知识画像的推理
    • 本体推理机
      • 本体解析器
      • 查询分析器
      • 推理引擎
        • RDFS、OWL中内置的规则,包括类的公理、属性公理等语言自身定义的关系限制,是进行本体分类等操作的主要方法
        • 自定义规则
      • 结果输入

技术发展趋势

  • 知识表示的研究趋势和动态包括以下四个方面
    • 符号与表示学习的融合统一
      • 基于符号的知识表示方法由于考虑了人类的自然语言理解方式,具有 严密性、自然性、通用性、知识易表达等优点,但是也存在计算效率低、无法捕捉隐含语义知识等不足。而基于表示学习的知识表示方法计算效率 高却存在可靠性低,推理效果不佳等问题。因此研究基于符号逻辑与表示 学习融合统一的知识表示方法有助于知识表达性能的进一步提升,也是未来的发展方向。
    • 面向事理逻辑的知识表示
      • 事理逻辑是指事件之间的演化规律和模式。已有的以实体、实体属 性、实体与实体或属性之间关系为核心的知识图谱缺乏针对事件之间的演 化规律与模式的知识挖掘。事实上,事理逻辑是一种非常有价值的常识知 识,挖掘这种知识对认识和分析人类行为与社会发展变化规律意义重大。
    • 融合时空间维度的知识表示
      • 现实世界中,许多知识具有时间和空间属性。德国马普研究所研制的YAGO知识库为许多知识 条目增加了时间和空间维度的属性描述,丰富了知识库内容。人们关心当 前事实的同时,也会关注过去和未来的知识情况以及不同空间的知识表达 含义,形成融合时间或空间维度的知识表示是增强知识表达的有效方式。
    • 融合跨媒体元素的知识表示
      • 当前的知识图谱主要以文本为主,事实上,跨媒体元素包括声音、 图片、视频、音频等数据对于丰富和增强知识图谱的知识语义具有重要作用。

你可能感兴趣的:(#,知识图谱,知识图谱)