自然语言处理-哈工大笔记

文章目录

      • 词处理
      • 语句处理
      • 篇章处理
      • 当前热点
    • 统计语言模型
      • 分词
      • 语料库
      • 词性标注
      • 句法分析
      • 语料库多机加工系统
      • 词语搭配识别技术
    • N-Gram统计模型
      • 平滑方法
      • 动态-自适应-基于缓存的语言模型
      • 马尔科夫模型
      • 隐马尔科夫模型
      • 基于HMM的词性标注
    • 句法分析

自然语言处理(计算机语言学、自然语言理解)
涉及:字处理,词处理,语句处理,篇章处理

词处理

分词、词性标注、实体识别、词义消歧

语句处理

句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成

篇章处理

自动文摘

当前热点

信息抽取、文本分类、问答系统

统计语言模型

分词

字串均分为词串。难点:未登录词
最大匹配法/逆向最大匹配法/双向匹配法/最佳匹配法/最少分词法/词网格算法

语料库

“生语料“->自动分词->语法标注->句法分析->语义/语法分析->语言知识库

词性标注

  1. 基于规则的词性标注
  2. 基于隐马尔科夫模型HMM的词性标注
  3. 基于转移的词性标注
  4. 基于转移与隐马尔科夫模型相结合的词性标注

句法分析

总体结构:
输入句子->短语界定自动预测->括号匹配区间限制->句法分析->人工校队->分析树表示

自动短语定界:

  1. 确定短语左边界、右边界
  2. 根据上下文信息,把开括号与其相应的比括号对应起来
  3. 根据歧义消解规则和统计信息,消解短语定界的歧义
  4. 生成表示句子结构的成分结构树

语料库多机加工系统

  1. 自动切词和词性标注子系统
  2. 自动短语定界和句法标注子系统
  3. 自动语义标注子系统

词语搭配识别技术

  1. 基于频率方法
  2. 基于均值和方差的方法
  3. 基于假设检验的方法
  4. 基于互信息方法

N-Gram统计模型

自然语言处理-哈工大笔记_第1张图片

N-Pos 考虑词类,当整个模型只有一个词类时,那么前N-1个词类没有提供任何上下文信息,退化为Unigram模型,如果每一个词都有一个各不相同的词类,N-pos模型等价于N-gram模型。

语言模型的评价->KL距离(某一语言的真实概率分布与构造的概率模型的KL距离)

平滑方法

拉普拉斯定律(加1平滑)降低已出现的N-gram条件概率分布,以使未出现N-gram条件概率分布非0
Good-Turing平滑
简单线性插值平滑
其他常用平滑方法:Heldout、Back-off、witten-Bell

动态-自适应-基于缓存的语言模型

将N个最近出现过的词,存于一个缓存中,作为独立的训练数据。通过这些数据,计算动态频度分布数据,将动态频度分布数据与静态分布数据(由大规模性预料训练得到),通过线性差值的方法相结合。

马尔科夫模型

  1. 有限历史假设
  2. 时间不变性假设(不随时间改变而改变,稳定性假设)
    (S,pai,A)S:状态集合;pai:初始状态概率;A:转移概率
自然语言处理-哈工大笔记_第2张图片

隐马尔科夫模型

(S, K, pai, A, B) S:状态集合;K:输出字符集合;pai:初始状态概率;A:状态转移概率;B:状态转移时输出字符的概率
自然语言处理-哈工大笔记_第3张图片
自然语言处理-哈工大笔记_第4张图片
自然语言处理-哈工大笔记_第5张图片
自然语言处理-哈工大笔记_第6张图片

三个基本问题:

  1. 评价。给定一个模型,如果搞笑计算某一输出字符序列的概率
  2. 给定一个输出字符序列o和模型u,如何确定产生这一序列概率最大的状态序列
    自然语言处理-哈工大笔记_第7张图片
    自然语言处理-哈工大笔记_第8张图片
  3. 给定一个输出字符的序列o,如何调整模型的参数,使得产生这一序列的概率最大。

基于HMM的词性标注

自然语言处理-哈工大笔记_第9张图片 自然语言处理-哈工大笔记_第10张图片 自然语言处理-哈工大笔记_第11张图片

句法分析

判断输入的次序列嫩否构成一个合乎语法的句子,运用句法规则和其他知识,将输入句子中词之间的线性词库变成一个非线性的结构

自然语言处理-哈工大笔记_第12张图片 概率上下文无关文法(Probabilistic Stochastic Context Free Grammar) 位置无关、上下文无关、祖先无关

完全句法分析-> 浅层句法分析(部分分析/组块分析)

你可能感兴趣的:(自然语言处理)