UCAS - AI学院 - 自然语言处理专项课 - 第4讲 - 课程笔记

UCAS-AI学院-自然语言处理专项课-第4讲-课程笔记

  • 语料库与语言知识库
    • 语料库基本概念
    • 语料库技术的发展
    • 语料库类型
    • 典型语料库介绍
    • 问题与现状
    • 语言知识库
      • WordNet
      • 知网HowNet
      • 概念层次网络
      • 知识图谱

语料库与语言知识库

语料库基本概念

  • 语言数据库:
    • 大规模语言数据(模型参数标准、评测标准)
    • NLP知识库(词汇语义库、词法句法规则库、常识库)
  • 语料库:用于存放语言数据的文件
  • 语料库语言学:研究自然语言文本的彩集、存储、检索、统计、词性和句法及语义信息的标注、以及具有上述功能语料库在语言定量分析、词典编纂、作品风格分析和人类语言技术等领域的应用
    • 基于语料的语言学研究
  • 研究内容:
    • 语料库的建设与编纂
    • 语料库的加工和管理
    • 语料库的使用

语料库技术的发展

语料库类型

  • 四种类型
    • 异质(Heterogeneous)语料库:最简单的预料收集方法,没有事先规定和选材原则
    • 同质(Homogeneous)语料库:与异质相反
    • 系统性语料库:充分考虑语料的动态和静态问题,代表性和平衡问题、以及语料库的规模
    • 专用语料库
  • 语言种类
    • 单语言
    • 双语或多语言
  • 是否标注
    • 具有词性标注
    • 句法结构信息标注(树库)
    • 语义信息标注
  • 生语料:没有做任何标注的语料
  • 熟语料:有详细标注信息的语料
  • 平衡语料库
    • 语料收集时的代表性与平衡性
    • 七项原则
    • 问题:
      • 分布点选取语料量的科学依据
      • 使用度是否真实地反映了语言的使用情况
  • 平行语料库
    • 同一语言的平行(选取时间、对象、比例等)
    • 多语言的平行采样加工
  • 共时语料库:对语言进行共时(同一时段)研究建立的语料库
  • 历时语料库:对语言进行历时(发展变化)研究建立的语料库
    • 是否动态
    • 文本是否具有量化的流通度属性
    • 深加工是否基于动态的加工方法
    • 是否取得动态的加工效果

典型语料库介绍

  • Brown语料库
    • 世界上第一个根据系统性原则采集样本的标准语料库
  • LLC口语语料库
    • 对话和广播等口语素材
  • Longman语料库
    • 尊重本族语言者的直觉和语料库权威
  • UPenn树库
    • 句子语法结构标注
    • 中文PropBank和NomBank(后者更关注名词)
    • Discourse Tree Bank语篇树库(语篇联通方式相关的一致关系)
  • 汉语篇章树库(CTDB)
    • 汉语中设计的语篇隐式联系比较多
  • Prague依存树库
    • 捷克语相关
    • 三个层次
      • 形态层:形态信息
      • 分析层:句法信息
      • 深层语法层:深层语法结构
  • 综合性语言知识库(CLKB)
  • 台湾中研院平衡语料库:
    • 世界上第一格带有完整词类标记的汉语平衡语料库
  • 口语翻译语料库(BTEC)
  • Speech-Translation TED 语料库
  • 中科院自动化所和社科院语言所构建的口语对话语料
  • CASIA多模态自动文摘语料
    • 英文:Topic——Documents——Videos——Summaries
    • 中文:主题——文档——视频——摘要

问题与现状

  • 问题:
    • 动态与静态,取决于目的
    • 代表性和平衡性
    • 规模
    • 语料库的管理和维护
  • 汉语语料库问题
    • 规范
    • 产权保护
  • 现状:
    • 来自规范文本
    • 标注体系不同意
    • 没有明确NLP任务导向

语言知识库

  • 从语言中抽象出的知识,使用语言表达

WordNet

  • 由词义组织词汇信息——语义词典
  • 语义关系:同义词集合之间的指针
    • 同义关系
    • 反义关系
    • 上下位关系(从属——上属)
    • 部分关系(整体——部分)
  • 应用:词汇消歧,语义推理,理解

知网HowNet

  • 四个基本观点
    • NLP系统需要强大知识库支持
    • 知识是一个系统
    • 先建立常识性知识库
    • 由知识工程师设计知识库框架

概念层次网络

  • 从自然语言空间到语言概念空间的映射

知识图谱

  • 描述实体之间的关系和实体或概念的属性
  • DBPedia:基于维基百科
  • YAGO
  • BabelNet
  • XLORE
  • 关键技术
    • 实体、概念识别
    • 关系抽取
    • 属性抽取

你可能感兴趣的:(UCAS-课程笔记,自然语言处理,人工智能)