UCAS - AI学院 - 自然语言处理专项课 - 第9讲 - 课程笔记

UCAS - AI学院 - 自然语言处理专项课 - 第9讲 - 课程笔记

  • 语义分析
    • 概述
    • 语义理论简介
    • 格语法
    • 语义网络
    • 词义消歧
    • 语义角色标注
    • 分布式语义表示

语义分析

概述

  • 语义计算的任务:解释句子或篇章各部分的含义
  • 困难
    • 大量的歧义(指代、同义/多义、辖域、隐喻)
    • 不同人的理解
    • 理论方法、模型尚不成熟
  • 挑战
    • 语义的基本单元
    • 语义表示的方法和标准
    • 语言产生和演化的神经基础是什么
    • 人脑的语言认知机理

语义理论简介

  • 词的指称作为意义
    • 指代事物——对应意义
    • 问题:抽象、复杂的事物无法处理
  • 心理图像、大脑图像或思想作为意义
  • 说话者的意图作为意义
    • 言语行为——期望反应
    • 独立于逻辑意义之外
    • 意图的定义、划分和表示十分困难
  • 过程语义
    • 接收该句后采取的动作
    • 人机对话
  • 词汇分解学派
    • 句子语义基于其含有的词和词组
    • 词的意义基于一组有限特征——语义基元
    • 语义基元 + 操作符——句子语义
    • 难以把握
  • 条件真理模型
    • 谓词逻辑为基础
    • 语义即其所对应的命题或谓词在全体模型中的真伪
    • 时间、场景有关的语言现象不能很好描述
    • 一词多义不好解释
  • 情景语义学
    • 句子语义与逻辑意义和使用的场景有关
    • 引入场景变量
  • 模态逻辑
    • 通过一套公理系统刻画现实世界和自然语言中的常见现象
    • 难以涵盖特殊事实

格语法

  • 用施事 、 受事 、 工具 、 受益等概念表示句法语义关系
  • 这些语义关系经过变换后在表层结构中称为主语或宾语
  • 格:深层格,体词(名词、代词)和谓词(动词、形容词)之间的及物性关系——语义关系
  • 这种格一旦确定就不会改变
  • 三条基本规则
    • S → M + P S \to M + P SM+P:句子可改写成情态和命题两个部分
    • P → V + C 1 + ⋯ + C n P \to V + C_1 + \dots + C_n PV+C1++Cn:命题都可改写成一个动词 V V V和若干格
    • C → K + N P C \to K + NP CK+NP:格由格标和名词短语构成
  • 格表
    • 施事格:动作发生者
    • 工具格:动作或状态牵涉到的无生命力量或客体
    • 承受格:动作或状态影响的生物
    • 使成格:动作或状态形成的客体或生物
    • 方位格:所处空间方位
    • 客体格:动作或状态影响的事物
    • 受益格:动作为之服务的有生命对象
    • 源点格:来源或起始位置
    • 终点格:终点或终止位置
    • 伴随格:共同完成动作的伴随者
    • ……
  • 用格语法分析语义:格框架约束分析
    • 格框架表示:主要概念(动词) + 辅助概念(各种深层格)
    • 分析基础:词典(动词需要的格、名词的语义信息)
    • 分析步骤
      • 判断主要动词,找出对应格框架
      • 识别必备格
      • 识别可选格
      • 判断句子的情态
    • 与句法分析结合
      • 句法分析:判断名词、NP、PP
      • 查找动词格框架与NP、PP的格关系
  • 格语法描写汉语的局限性
    • 汉语中的无动句、流水句、连动句、紧缩、动补、省略等结构无法描述
    • 无法对句子进一步拆分分析

语义网络

  • 语义网络:通过实体、概念或动作、状态及语义关系组成有向图表达知识、描述语义
  • 图的节点表示实体或概念,边表示实体或概念之间的联系
  • 边的类型:IS-A、PART-OF、IS、HAVE、BEFORE……
  • 实体、概念或属性通常采用不同形状节点表示
  • 事件的语义网络表示:施事、受事、时间等关系,由事件节点连结
    • 事件的语义关系:分类、聚焦、推论、时间位置
  • 问题
    • 词的内涵和外延
    • 网络的完备性
    • 粒度划分

词义消歧

  • 基本方法
    • 基于规则的方法
    • 统计机器学习方法(有监督 / 无监督)
      • 不同词义一般发生在不同的上下文
    • 基于词典信息的方法
  • 有监督的词义消歧方法
    • 建立分类器,利用划分多义词的上下文的类别以区分多义词的词义
    • 互信息消歧方法
      • 双语平齐的平行语料库,一个多义的A语单词在不同上下文中对应多种不同的B语翻译
      • 语义指示器:决定A语言的语义的条件
      • 词义消歧——语义指示器的分类问题
      • 对多义词的译文 T 1 , … , T m T_1, \dots, T_m T1,,Tm,指示器取值 V 1 , … , V n V_1, \dots, V_n V1,,Vn,是一个Flip-Flop算法
        • 随机将 T i T_i Ti划分为两个集合 P = { P 1 , P 2 } P = \{P_1, P_2\} P={P1,P2}
        • 找到一个 V j V_j Vj的划分 Q = { Q 1 , Q 2 } Q = \{Q_1, Q_2\} Q={Q1,Q2},使得 Q i Q_i Qi P i P_i Pi的互信息最大
        • 找到一个改进的划分 P ′ P^\prime P,使得 P ′ P^\prime P Q Q Q的互信息最大
        • 重复后面两个步骤
      • 指示器取值确定后:
        • 对出现的歧义词,指示器值为 V i V_i Vi
        • V i V_i Vi Q 1 Q_1 Q1中,语义确定为语义1,否则为语义2
    • 基于贝叶斯分类器的方法——第二章
    • 基于最大熵的方法——第二章
    • 基于词典的方法
      • 语义定义消歧:词典中词条本身的定义作为判断其语义的条件
      • 义类辞典(thesaurus)消歧:多义词不同义项使用时往往具有不同的上下文语义类
      • 双语词典消歧:针对A语言x和y的搭配关系,在B语言中计算不同x的对应义项与y的搭配关系
      • Yarowkskyi消歧:两个基本限制
        • 每篇文章只有一个意义(存在问题)
        • 每个搭配只有一个意义(取最可能搭配)
  • 无监督的词义消歧方法
    • 对一个词的多个义项 s i s_i si,计算上下文中出现 v j v_j vj的概率 p ( v j ∣ s i ) p(v_j | s_i) p(vjsi)
    • p ( v j ∣ s i ) p(v_j | s_i) p(vjsi)的估计在无标注语料上进行,EM算法估计
    • 问题:很多同义词的同一个意义常出现的上下文往往有很大差异

语义角色标注

  • 任务目标:自动语义角色标注,以句子为分析单位,以句子谓词为核心,分析句子中的其他成分与谓词之间的关系
  • 一般在句法分析基础上进行
  • 主要用途:信息抽取、自动文摘、机器翻译
  • 两类语义角色
    • 与具体谓词直接相关,ARG0通常为施事者,ARG1通常表示动作的影响
    • 起修饰作用的辅助性角色,ARGM开头,表示时间、地点和一般修饰
  • 主要框架
    • PropBank
    • NomBank(聚焦到名词短语身上)
  • 标注方法
    • 句子——(句法分析器)——句法分析结果——(候选论元剪除)(尽量减少候选项的数目)——(论元识别)(论元的二分类问题)——(论元标注)(多分类问题)——(后处理)(删除重复论元)——SRL结果
  • 基于短语结构句法分析的SRL方法
    • 候选论元剪枝
      • 将谓词作为当前节点,依次考察其兄弟,若非并列关系,则视作候选项;若兄弟为PP,其子节点亦作为候选项
      • 将其父设为当前节点,重复上一步
    • 论元识别和标注
      • 分类问题
      • 有效特征
        • 谓词本身
        • 沿树到达谓词的路径
        • 其他特征P65
    • 分类:贝叶斯、最大熵、SVM、感知机
  • 基于依存关系的SRL方法
    • 一个论元被表示为连续的几个词和一个语义角色标签(中心词 + 语义角色)
    • 谓词与论元的关系可以视为谓词与中心词的关系
    • 候选论元剪枝
      • 谓词作为当前节点,所有孩子作为候选项
      • 其父设为当前节点,重复上述过程
    • 论元识别和标注
      • 常用特征
        • 谓词
        • 谓词词义
        • 其他特征P70+P71
  • 基于语块分析的SRL方法
    • 序列标注问题
    • BIO方式定义序列标注的标签集,将不同的语块赋予不同的标签
    • 不需要剪除候选论元(局部语义分析),论元识别和标注同时进行
  • 主要问题
    • 句法分析器性能的严重依赖
    • 领域适应能力差

分布式语义表示

  • 基于图像学习词汇语义表示
    • 特征描述子(SIFT)直接提取图像关键点特征
    • 利用CNN提取图像特征
  • 基于语言学习词汇语义表示
    • 利用升学特征
  • 基于多模态信息学习词汇语义表示
    • same weight
    • different weight
  • 针对多模态信息融合的分布式表示学习
    • 利用关联词对作为弱监督信号
      • 学习单模态向量表示
      • 补全没有图像表示的词汇的图像表示
      • 利用门机制作为不同模态的权重
      • 用关联词对作为监督信号,互相接近,利用最大间隔作为目标函数
    • 问题:一些信息并不在文本中出现(颜色、气味)
      • 忽视了模态之间的相关性
      • 级联方式不能很好融合模态信息
      • 没考虑到不同类型词汇对模态的依赖性——具象词、抽象词
    • 多路通道融合编码
      • 模态关联 + 单词关联(不同模态依赖程度) + 门机制
    • 融合词汇内部结构的中文句子表示模型
      • 不同类型字对词汇含义影响不同
      • 原子词汇表示和组合词汇表示对最终此汇含义影响不同
  • 针对多模态词汇表示的可解释性研究
    • 表针相似性分析方法和大脑的成分语义表征解释
      • 不同模态特征相似性学习
      • 不同维度特征做对比
      • 维度与特征之间的相关性分析
      • 不同模态得到的词汇表示编码了不同类型的属性(视觉——感知特征,词汇——抽象特征)
      • 词汇语义表示模型在实体词和抽象词上的表示不同(实体词——感知特征,抽象词——抽象特征)
  • 借鉴人类注意力分配机制的句子语义表示
    • 惊异度Surprisal:人在某一个词上注意力的多少
    • 注意力模型是否与人阅读时的眼动数据一致?Yes!
  • 研究对比不同类型分布式句子表示在人脑语义解码上的性能表现
    • fMRI图像跟踪
    • 句子中不同词贡献语义不同
    • 句子语义与其结构紧密相关
    • 相似度解码:fMRI与文本表示的统一相似度度量
    • 回归解码:二者的联系
    • 句子表示:非结构化(朴素池化 / 复杂池化) / 结构化(无监督 / 监督)
    • 训练过程:训练——测试(相似性训练)——排序(效果评价)
    • 非结构化模型中,最大池化表现最差,最大池化 + 平均池化结合效果很好
    • 监督结构化模型表现显著优
    • 不同回归方法有着不一样的表现
    • 人脑分布集中在语言区和视觉区
  • 如何从神经影像数据中重构相关的语义信息
    • 不同fMRI与不同类型词汇的对应关系
    • 三种刺激
      • 图像 + 单词
      • 句子
      • 词云(中心词 + 相关词)
    • 三种类型词:动词、名词、形容词
    • 图像+单词分布最稳定,与VGG搭配最好;句子和词云与ELMo搭配最好
    • 不同类型的词应采用不同的表示方法
    • 不同模态的刺激激活不同的脑区
  • 利用计算方法寻找语义和语法表征的脑区
    • 解纠缠的特征表示模型
    • 解纠缠模型构建(句法、语义)
    • 进行相似性编码分析
    • 语义特征更加鲁棒(无顺序结构的约束)
    • 句法和语义很难区分得开
    • NLP——探索大脑语言的认知机理的可能

你可能感兴趣的:(UCAS-课程笔记,人工智能,自然语言处理)