数学之美读书笔记

上周重读完了吴军的《数学之美》,来总结下期中的内容:

余弦定理和新闻分类:

余弦定理在初中就学过,$cos \theta = \frac{}{|b| · |c|}$

计算文档相似性通过余弦定理进行计算,将文档按照词库内分布构建文档的词分布矩阵,计算两两之间的相似性,技巧:将每篇文章的分母计算存储下来,去除虚词,只考虑非零元素内积,可以大大提高计算速度。

可以通过计算相似性对文本进行聚类

对于构建的大型的文本矩阵,进行计算比较复杂,可以通过svd矩阵分解来处理降维,从而大大降低计算复杂度。

文本方向

文本的处理,包括自然语言处理、统计语言模型、分词等

自然语言处理过去是学习人理解信息的思路,将信息分为实词、虚词、形容词、主语等,但是后台出现的统计模型,利用统计学对信息进行处理,取得较好效果,而文本中词的出现及信息含义和之前的文本是相关的,于是构建复杂的高阶语言模型,如果将高阶变为二阶那就是马尔科夫链,只依赖上一个的信息。

因为要对语言进行统计,自然就出现了分词,分词的目的是将文本按照分词进行统计,分词的形成过程就是文本结合在一起形成一个词的概率比较大,大于和其他的词结合后形成新词组的概率。

信息方向

信息熵是衡量信息量的大小,变量不确定性越大,熵也就越大,网络搜索过程中,网站根据用户输入的信息搜索相关的文档,每次输入都是信息熵降低的过程,引入条件熵的概念,条件熵是在已知信息下,其他信息不确定性的大小。

决策树中用信息熵最多,决策树的分叉过程就是寻找信息熵下降最大的特征进行分叉,从而使得每次分叉后信息的不确定性降低最大。

爬虫及搜索引擎相关

爬虫的本质是寻找和相关的网页,然后爬取下来,包括两种算法BFS,DFS,爬虫的本质就是就找到网址,然后爬取下来,于是两个问题,网址怎么找,找到的网址怎么存,存网址是通过Hash Table来记录爬取过的信息,如何记录大量的已经爬去的网址呢,比如将网址分治交给不同服务器下载,这样不用重复判断,每次获取一批网址,每次更新一批网址为已爬取,减少交流次数。

搜索引擎查询过程中,如何度量网页和查询的相关性呢?

TF-IDF(词频,逆文本频率指数$log(D/D_{w})$)比如用户搜索:核聚变的前景,那么可以分词为核聚变、前景,计算每个文章的核聚变TF-IDF值TF1和前景的TF2,然后计算TF1+TF2值最大的网页,即为搜索的相关性比较大的网页,结合pagerank算法,便可以得到比较好的搜索结果了。

反作弊用到的:重复关键词、图论,作弊本质是在网页排名中增加噪声,因此反作弊的关键是去噪音

数学模型重要性

托勒密通过50个以上的圆来构建宇宙模型,造成500年才有12天的误差,可见构建模型有多精细,而500年后教皇人为改变历法从而符合天体规律。

古代的欧洲,亚里士多德欧几里得等认为圆是完美的,是天体运行的规律,对圆有着近乎痴狂的崇拜,所以相信一定是圆的运行规律,而天体运行规律是椭圆的。

托勒密的准确模型确立了地心说,以至于后开普勒的椭圆定理通过模型计算出来的准确度还不如地心说,所以没有人相信

能够发现日心说是大量观测数据总结后得到的,因此数据的存储对于文明发展的重要性。

一个准确的模型应该是简单的,一个正确模型一开始可能还不如一个精雕细琢的错误模型,但如果方向是对的,应该坚持下去。

最大熵模型

最大熵模型就是要保留全部不确定性,将风险降低到最小。

期望最大算法EM

EM算法分为两个步骤

E:计算期望,在当前参数下,计算数据在各个模型下的最大期望,从而找到属于的模型

M:在当前模型下,计算参数,以最大化期望,更新参数

拼音输入法及自然语言处理

马尔科夫链及维特比算法

逻辑回归及搜索广告

CTR

每次广告点击成本1000元

分治思路

对于大数据,分治是根本思想,mapreduce,将数据分散到各个机器上,为map过程,各个机器计算出结果后,再统一计算出最终结果,reduce过程。

大数据的重要性

搜索引擎点击日志的重要性,每次点击形成的数据可以为后续优化做数据基础,通过统计可以得到各搜索下点击数量,那么点击数量可以作为一个参考参数,来进行网页的排序。

先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功的秘诀

每天坚持分析一些搜索结果不好的例子,以掌握第一手资料

你可能感兴趣的:(数学之美读书笔记)