nlp知识点总结(上)

壹:语料库

一、什么是语料库

1. 定义

        语料库(corpus)一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。

2. 种类

        共时语料库与历时语料库。

        通用语料库与专用语料库。一般把抽样时仔细从各个方面考虑了平衡问题的平衡语料库称为通用语料库。

二、语料库加工

1. 文本处理

        垃圾格式问题,大小写,标记化,句点、单撇号、连字符,词干化,句子边界。

2. 格式标注与数据标注

三、语料库应用——统计分析

1. Zipf法则

nlp知识点总结(上)_第1张图片

      nlp知识点总结(上)_第2张图片

 2. 搭配抽取

        用频率方法识别固定搭配,用均值和方差方法识别灵活的搭配。

3. 小结

  • 语料库是语言集合的采样
  • 语料库能够呈现语言的一般规律
  • 语料库的加工/标注是NLP建模的基础,一般规模越大,模型性能越好

四、语料库加工——抽取与对齐

1. 基于共现的双语词典自动获取

        nlp知识点总结(上)_第3张图片

nlp知识点总结(上)_第4张图片

nlp知识点总结(上)_第5张图片

改进:删除高频干扰词,引入词性处理间接共现(无效),迭代,引入词典

nlp知识点总结(上)_第6张图片

2. 基于长度的双语句子自动对齐

        问题的形式化描述如下:

nlp知识点总结(上)_第7张图片

        利用贝叶斯公式进行转换。假设对齐句对中源于言和目标语的句子长度服从正态分布,则可以估计出第一项。

nlp知识点总结(上)_第8张图片

         第二项,针对不同的对齐模式有不同的概率,查找已对齐的双语语料库可以进行估计,最后利用动态规划求解最优路径。。

nlp知识点总结(上)_第9张图片

nlp知识点总结(上)_第10张图片

贰:语言是什么

一、语言与自然语言处理

1. 概念

  • 语言:一个用于人类交际的、具有任意性语音符号的系统。
  • 自然语言处理:利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术—冯志伟,1996。是一门集语言学、数学、计算机科学和认知科学等于一体的综合性交叉学科。

 2. 语言起源

  • 神授说
  • 人创说:柏拉图认为源自对外界声音的模仿;伊壁鸠鲁认为从各种抒发情感的叫喊演变过来;社会契约说,等等。
  • 恩格斯提出了劳动创造了语言,语言起源于劳动的观点。
  • 普遍认为:人类有声语言的产生大约是在距今四五万年前的旧石器时代晚期,也就是晚期智人时期。

二、现代语言学——索绪尔的奠基工作

费尔迪南·德·索绪尔,现代语言学之父,把语言学塑造成为一门影响巨大的独立学科。

1. 索绪尔的观点

  • 区分了语言和言语这两个不同的概念
  • 区分了语言的“能指”与“所指”
  • 主张将共时性的研究与历时性的研究区分开来,指出语言学重点在共时研究(内在性质而非演变过程)
  • 指出语言是一个系统,它有自己固有的秩序

2. 语言和言语

  • 言语:指说话这种行为和说出来的具体的话。
  • 语言:是从言语中概括出来的各言语要素的综合,是约定俗成的体系,有统一的语法规则和语音习惯,具有社会性。
  • 语言是一般,是规则;言语是特殊,是结果。

3. 能指与所指

  • 用A代表B,则A是代表B的符号,A是符号的能指(形式),B是符号的所指(内容)。
  • 语言符号是音义结合的统一体。

4. 语言符号的特点

  • 任意性:所指与能指联系具有任意性
  • 线性:书写、口述、理解,都有先后过程
  • 稳定性:短期、局部
  • 渐变性:长期、全局
  • 社会性:只存在于社会之中,离开了社会就没有语言(不是索绪尔关心的,为什么)

5. 语言系统的两种基本关系

  • 组合关系:由词构成句子,横向,又称线性序列关系。

nlp知识点总结(上)_第11张图片

  • 聚合关系:具有替换关系的同类性质语言单位,纵向。

nlp知识点总结(上)_第12张图片

 6. 语言系统的层级关系

nlp知识点总结(上)_第13张图片

叁:中文分词

一、分词

1. 分词的提出

  • 词是自然语言中能够独立运用的最小单位,也是语言信息处理的基本单位(但不是最小的)。
  • 分词就是将句子转换成词序列。
  • 自动分词是正确的中文信息处理的基础。

二、分词算法——基于字符串匹配

1. 正向最大匹配分词FMM

  • 大规模真实语料中99%的词例长度在5个字以内。
  • 错误切分率为1/169,往往不单独使用,而是与其它方法配合使用。

nlp知识点总结(上)_第14张图片

2. 逆向最大匹配分词BMM

  • 与FMM类似,区别在于从文本末尾倒着进行,匹配失败时去掉第一个字。
  • 实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1/245。
  • 改进:增加知识、增加歧义词表、增加排歧规则等。

3. 双向匹配法

  • 双向最大匹配法是将正向最大匹配法(FMM)得到的分词结果和逆向最大匹配法(BMM)得到的结果进行比较,从而决定正确的分词方法。
  • 可有效处理分词歧义。

nlp知识点总结(上)_第15张图片

nlp知识点总结(上)_第16张图片

 4. 最少分词法

  • 等价于最短路径,效果优于单向的最大匹配。
  • 缺点:忽略组合歧义,未解决大部分交叉歧义。
  • 实现方法:动态规划算法。

5. 最大词频分词

  • 正确率可达到92%,简便易行,效果一般好于基于词表的方法。

6. 中文分词的数据结构——词图

nlp知识点总结(上)_第17张图片

三、分词歧义

1. 交集型切分歧义

  • 汉字串ABC,满足AB、BC同时构成词,此时造成交集型歧义。

nlp知识点总结(上)_第18张图片

2. 组合型切分歧义

  • 汉字串AB,满足A、B、AB同时构成词,此时造成组合型歧义。

nlp知识点总结(上)_第19张图片

nlp知识点总结(上)_第20张图片

3. 真歧义和伪歧义

  • 真歧义指存在两种或两种以上的可实现的切分形式。如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义。
  • 伪歧义一般只有一种正确的切分形式,如“ 建设/有 ”、“ 中国/人民 ”、“ 各/地方 ”、 “ 本/地区 ”等。

nlp知识点总结(上)_第21张图片

  

四、新词与未登录词

  • 虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词。
  • 新词的出现,使得自动分词结果中出现过 多的“散串”,从而影响了分词的准确率。研究还显示,60%的分词错误是由新词导致的。
  • 较成熟
    • 中国人名、译名
    • 中国地名
  • 较困难
    • 商标字号
    • 机构名
  • 很困难
    • 专业术语
    • 缩略语
    • 新词语

肆:中文分词——统计建模

一、基于N元文法的分词

N元文法是自然语言处理领域赫赫有名的一个模型。

1. 原理部分

  • 在进行推导时,有这样的一个步骤,最终得到待求的最优分词序列是概率最大的序列。这里绕了一大圈,感觉上似乎没什么必要。
  • 一种解释是这样的:模型中存在不少假设,有些假设难以给出合理性说明,特别是从实验结果上。相比于直接通过假设进行规定,通过推导一定程度上相当于对假设的检验,增强了模型的合理性。

nlp知识点总结(上)_第22张图片

  • 在求P(Seg)时,涉及到句子中各个词的联合概率,联合概率无法直接求解,这里转化为条件概率,结合有限历史假设,转化为概率之积。
  • 另外,在具体程序实现过程中,记得将概率连乘转成对数之和,避免连乘导致的下溢。

nlp知识点总结(上)_第23张图片

2. N元文法

  • 一元文法(unigram)等价于最大词频分词。
  • 二元文法(bigram)也称为一阶马尔科夫链。
  • 随着N元文法的N的增大,模型效果越来越好,但随之而来的是参数的爆炸,模型复杂度是N的指数级。
  • 为了处理庞大的参数空间与实际有限样本之间落差,常用的方法有等价类映射、数据平滑等。后者应用更为广泛。 

nlp知识点总结(上)_第24张图片

二、基于HMM的分词/词性标注一体化

1. 原理部分

  • 隐马尔科夫HMM的内容此处不作详细介绍,在之后的第伍章会有讲解,大致思想是由隐状态确定观测序列,状态之间以一定概率转移,不同状态的观测结果概率不同。
  • 这里最后一步推导如果细究可能会觉得哪里不对(给定词性序列下出现目标句子的概率和出现分词序列的概率),大概作了某些假设? 

nlp知识点总结(上)_第25张图片

  • 结果推导,目标概率转化为两项概率之积。
  • 其中P(T)可通过N元文法计算,而P(W|T)可由独立性假设简化计算,最终转化为下图所示的式子。其中的P(w|t)和P(ti | ti-1)都可通过HMM的参数得到,因此只要构建出HMM模型,就能计算相应的概率。

nlp知识点总结(上)_第26张图片

  • 整体的求解思路:首先构建句子的全切分有向图,然后利用Viterbi算法(动态规划)求解最大路径概率,作为分词结果。

你可能感兴趣的:(课程复习,自然语言处理,人工智能)