UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记

UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记

  • 篇章分析
    • 概述
    • 篇章表示理论
    • 篇章关系分析
    • 篇章分析应用

篇章分析

概述

  • NLP处理单位
    • 字——编码、输入法
    • 词、短语——形态分析、汉语分词、词性标注、词义消歧、NER
    • 句子——句法分析、语块分析、语义角色标注
    • 篇章——机器翻译、篇章推理、问答系统、自动摘要、情感分类
  • 现有有关篇章的分析任务都是基于句子的,因此性能很差

篇章表示理论

  • 词汇链:一组由类似含义的相同词汇连接起来的句子
  • 事件链:一组由动词即相关实体连接起来的句子——三元组
    • 抽取实体词汇链
    • 抽取词汇链上最近的谓词——论元,构成事件链
    • 判断相邻事件之间的关系
  • 话题链:一组以名词回指、代词回指、零型回指形式的话题连接起来的句子
    • 回指:一个词或短语在语篇中用于指代同一语篇中的另一词或短语的概念
    • 关联词可以用于描述逻辑关系
  • 修辞结构理论RST
    • 语篇由各个具有重要功能的部分构成,较小的部分按照一定的关系模式组成更大的部分,直至成篇
    • 一段文字要被确认为语篇,各部分要有机地结合,形成整体性和连贯性——内在功能——中心目的
    • 语篇构成:两个基本部分组成一个较大的部分,不但组成,直到称为语篇——层次化结构
    • 语篇结构
      • 类型结构:语篇的题材或类型特征,相对固定
      • 句法结构
      • 关系结构:同一性,不因结构层级改变而不同——主要结构
        • 不对称性在关系结构中占主导地位——核心-辅助关系
        • 各种关系:P15
  • 汉英篇章树库 CDTB vs. PDTB
    • 汉语隐式关系更多
  • 其他理论:P20

篇章关系分析

  • 基本任务:篇章——一组关系
    • 显式关系或者隐式关系
    • 两个篇章论元机器之间的关系
    • 三大任务
      • 关联词识别
      • Arg抽取
      • Arg1和Arg2之间的篇章功能类型判断
    • 有时arg称为基本篇章单元
  • 基本分析流程
    • 锚词识别——列出候选(标签、词典),识别
    • 论元抽取——抽取锚词对应的论元对
    • 论元关系分类——预测两个抡元之间的关系
    • 论元标注——最终确定并标注论元关系
  • 锚词识别
    • 显式关系:关联词表
    • 隐式关系:标点符号
      • 句中MOS
      • 句末EOS
    • 识别特征P27
  • 论元抽取
    • 观察
      • Arg1和Arg2通常在一个句子里,或则邻近两句
      • 一个论元由一个或几个连续的句子组成
      • 显式的Arg2与关联锚词在同一个句子中
      • 大多数情况下,Arg1和Arg2的跨度范围是邻近的,之间没有其他子句
    • 扩展种子论元对
      • 确定句子范围
        • 显式:由Arg1位置决定
        • 隐式:由锚点位置决定(MOS / EOS)
      • 生成种子论元对
        • 显式
          • SS(同句论元对),那么Arg2可能在左侧,也可能在右侧,需要一个分类器
          • PS(异句论元对),当前有连接词的子句与前面一个子句构成论元对
        • 隐式:标点左右两个句子
      • 扩展种子
        • 方向:向左 / 向右
        • 逐子句考察
        • 选择最长的边界
        • 通过分类器确定扩展范围
  • 关系类型识别:分类
  • 论元标注:分类
    • 确定Arg1和Arg2孰前孰后
  • 错误分析
    • 组合关联词识别错误
    • 关联词在剧中的情形不好判断

篇章分析应用

  • 机器翻译
    • RS-tree-to-String 统计翻译模型
      • 由论元关系考察是否调整句子顺序(不同语言的关系呈现不同)
    • 融合篇章结构的神经机器翻译
      • 位置编码

你可能感兴趣的:(UCAS-课程笔记,人工智能,自然语言处理)