讲解基本自然语言处理NLP

简介

前几天用自然语言处理技术学习了一下习主席的十九大报告,发布到朋友圈以后反响比较大,很多同事和朋友都好奇我是怎么做到的;由于学习的算法比较简单,所以我基本上两三句话都给他们解释清楚了。我觉得很多人也会对类似的话题感兴趣,所以这里要写这么篇博文,来document一下我的这个非常简单的自然语言处理程序,给大家揭开一点迷雾。

原理分析

这个算法来自斯坦福的抽象编程课,若干年前叫cs106b, 不知道现在还上不上这门课。主要的方法就是对文章中出现的每一个字都建立一个索引,这个索引里包含了所有紧跟在它后面出现的字及其出现的次数,自动生成文章的时候会使用一个seed,不断生成随机数,按照紧跟字出现的概率和随机数来决定下一个字。

先说索引,索引里包含了所有紧跟在它后面出现的字及其出现的次数。比如说字“同“,我们发现文章里有同学这个词,于是“同“的索引里就有“学“这个字,又发现文章里有同胞这个词,于是“同“的索引里就又有了“胞“这个字。索引不光是紧跟字的集合,也记录了每个紧跟字的出现次数。就拿习主席的报告为例,学习完成后,发现“培“字后面分别紧跟“育“、“养“和“训“三个字,他们的出现次数是11、10和2。

当我们有了一个种子(seed)的时候,我们可以查看它的紧跟列表,按照概率来选出下一个字。就拿“培“打个比方,后一个字有 1123 的几率会是“育“字, 1023 的几率是“养“字, 223 的几率是训字。选出下一个字以后,这个字又做为新的种子重复上述的过程。

有趣的是逗号、句号这种标点符号也被当成一个字,所以新生成的文章也会有明显的断句。

程序实现

先说我封装的一个重要的类:Token. 我们先来看一下类的UML图:
讲解基本自然语言处理NLP_第1张图片

最底层的类叫做CharacterNOccurrence,这是一个字符(Character)和它的出现次数(int)组成的类,它有一个公有方法叫做addOneOccurrence(), 就是增加一次出现次数。

Token类aggregate了这个CharacterNOccurrence类,这是对于现实中每个字都有对应的索引的抽象,我把一个字(一个Character对象)和它的索引(List) 封装在同一个对象里,方便使用。

主程序的学习部分就是读取一个文本文件,为每个字生成一个Token实例,并用一个Map把文字本身和它对应的Token实例存储起来,以便自动写文章的时候使用。Map是一个Map 的形式。

主程序的书写部分就是hardcode一个种子,到Map当中去找对应Token,按照概率选出下一个字,再重复之前的操作。

代码在Github . 有问题欢迎提问。

你可能感兴趣的:(算法,自然语言处理)