自然语言处理的思想整理

这篇是草稿,待看完更多书后统一整理。建议网友先看托马斯•科弗的《信息论基础》。语言处理又是和弗里德里克•贾里尼克这位大师紧密联系在一起的。

语言编码首先是词的编码规则,再是语法的编码规则。

词的编码规则有声码即拼音文字,形码,量码即数字。

ictclad对文本集合预处理,包括对文本进行分词和词性标注,之后识别文本集合的人名,地名,组织机构。然后应用tf-idf对文本中的所有词项权值计算,选出关键词。


语法编码:从规则到统计

词是表达语义的最小单位。最容易的分词方法是查字典,梁南元教授提出来的。语言的歧义是分词的阻碍。现在最好的分词是清华大学郭进博士提出来的。


说到统计,得谈到概率。

我们常说信息很多,那到底有多少呢?如何量化?

某个角度上讲信息量取决于不确定性的多少。也要通过分组和结合概率算。

信息处理,很大问题上都在解决不确定性。如何解决和处理二义性?当获取的信息与研究事物有相关关系时,就可以减少。也就是利用相互关系原理,利用相关的信息。


统计一方面可以衡量某一个算法或者解决方案的好坏,也就是找出最优解


概率统计中的推理中有,不得不提到布尔运算。

逻辑运算有三个基本的,与或非。一定要深刻理解啊!!


搜索引擎

搜索引擎的原理:自动下载网页,建立索引,根据相关性进行排序。

建立最简单的索引结构是每一篇文献都对应一个二进制数,1代表这个文献有这个关键词,0代表没有。有多少文献就有多少位数,用很长的二进制字符串表示一个关键词是否出现在每篇文献中。

于是,搜索引擎的索引就变成一张大表,每一行对应一个关键词,每个关键词后面跟着一组数字,是包含该关键词的文献序号。



图论的遍历算法要好好看啊,思想精髓要把握住啊。。广度遍历和深度遍历。

网络爬虫,使用哈希表存储网页是否下载过。

网络爬虫的解析程序看看。

如何计算网页的权重和排序网页?破解权重的方法是转成二维矩阵相乘,然后迭代,并且利用稀疏矩阵思想。


遍历中的图论:主要解决是什么问题?是识别。

有限状态机和动态规划好好看看。


先解决80%的问题,后解决20%的问题。


计算机不需要学习人的做法,就像飞机不必像鸟一样飞行?我不能理解,我要好好想想为什么?


余弦定理与相关性:余弦值越大,相关性越大。

先计算两两网页的相似性,如果在一个阀值内就合并,基于这个分类完后再两两合并。时间成本高。


奇异值与相关性


矩阵与相关,分类:向量夹角越大时,相关性越差


相似性:信息指纹与相似哈希表


反作弊:通信模型和图论。

记得看看上面两个。


数学模型与香农第一定理


贝叶思网络与分类,主题:

每一个状态只与它直接相连的状态有关,和它间接相连的状态没有直接关系,那么它就是贝叶斯网络。


条件随机场与句法分析


图论中的维特比算法

利用动态规划解决最短路径问题

你可能感兴趣的:(自然语言处理的思想整理)