数学之美 吴军 读书笔记

第一章 文字和语言VS数字和信息

1.信息

发送信息--->编码----->信道传播------>解码---->接收信息

2.文字

1.信息的沉余是信息安全的保证。

2.语言的数据,也称为语料。双语或者多语的对照语料

3.文字和语言背后的数学

拼音文字常用字短,生僻字复杂符合信息论的最短编码原理。比如文言文,文字少意思丰富,需要文人解码成白话文才通俗易懂。因为记录的复杂。符合信息论工程原理通信时,信道较宽,信息不必压缩,信道窄就需要压缩,然后在接收端进行解压。古代说话就是宽信道,记录就是窄信道。

圣经的记录还采用了通信中的检验,他们把希腊字母对应一个数字,检验每行数字之和,每列之后是否相等作为检验方法。这样就可以检验是否错误以及,纠错具体位置错误。

  1. 总结:通信原理和信息传播的模型
  2. 信源编码和最短编码
  3. 解码的规则和语法
  4. 聚类
  5. 校验位
  6. 双语对照文本,语料库和机器翻译

多义性和利用上下文消除歧义性

第2章 自然语义处理 从规则到统计

字母,文字和数学都是信息编码的不同单位。语言的语法规则就是编解码的算法。 两个问题 第一计算机能否处理自然语言  第二 处理自然语言的方法是否和人类一样。YES

1.机器智能

最原始的自然语言处理是通过语法规则,词形和构成法等也就是基于规则的自然语言处理。

数学之美 吴军 读书笔记_第1张图片

 
  1.首先,要想通过文法规则覆盖哪怕20%的真实语句,文法规则的晒单至少也是几万条。
  2.即使写出涵盖所有自然语言现象的语法规则集合也很难用计算机来解析。(基于上下文的文法分析,复杂度是语句长度的六次方)

2 从规则到统计

可以说,利用计算机处理自然语言的努力直到20世纪70年代初始相当失败的。1970以后的统计语言学的出现使得自然语言处理重获新生,并取得今天非凡的成就。推动这个技术路线转变的关键人物是Frederick Jelinek和他领导的IBM华生实验室。”基于统计的方法,使得IBM将当时的语音识别率从70%提升到了90%,同时语音识别的规模从几百单词到几万单词,这样语音识别从实验室走向实际应用的成为可能。

第3章 统计语言模型

统计语言模型,直观的表达是:“看一个句子合理,就看它的可能性大小如何。”(贾里尼克)
假定S表示一个有意义的句子,由一串连续词排列w1,w2,w3.......wn-1,wn组成。
   语料库中前一个词出现后后一个次出现的概率,一个句子的概率的计算公式如下:
   P(S)=P(w1,w2,w3,w4.........wn)
   P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)
   这样的方式在计算上比较麻烦,而有了一个较为偷懒的假设“ 马尔科夫假设”,假设后一个词的出现只与前一个词相关,公式的形状如下:
   P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…  二元模型,只与前一个词有关,依次类推还有三元,四元模型,N元。
   这种假设的局限性在于:“在自然语言中,上下文之间的相关性跨度可能很大,甚至可以从一个段落跨到另一个段落。因此即便再怎么提高模型的阶数,对这种情况也无可奈何.”
模型的训练,零概率问题和平滑方法
   一个直观的表达是:“通过对语料进行统计得到上面公式中所有的条件概率。”的过程即为模型训练。
    大数定理告诉我们:“ 在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。”使得当语料库越庞大时,我们能获得越精准的条件概率。就好像,我们对一个事情发展的预估,往往和我们在这件事情上的直观经验的积累相关。
   对于语料库中没有出现过的词的组合
    古德-图灵估计:“对于没有看见过的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。” 
数学之美 吴军 读书笔记_第2张图片

第 4章 谈谈分词

最简单的分词方法就是查字典分词,找最长匹配

利用统计语言模型分词的方法,穷举所有可能的分词方法并计算出每种可能性计算量太大,使用动态规划的利用维特比算法找到最佳分词

统计语言模型的分词方法
   假定一个句子有多种分词方法,那么我们看看这几种分词方式出现的概率有多大,采用出现概率最大的分词方式。
   分词在中文、韩文、手写英文识别中尤为重要。
"分词的不一致性分为错误和颗粒度不一致两种,错误分为两类,一类是越界型错误,另一类是覆盖型错误。"

第5章  隐含马尔可夫模型

你可能感兴趣的:(论文阅读笔记)