简单之美—《数学之美》阅读笔记

午后,我灌了一杯焦糖拿铁下肚,嗨得不可描述,抖着腿看完了这本《数学之美》。碎碎念记录一下。书名确实有点大,不如说是数学中的代数、概率、统计在IT界的应用之美。即便如此,倒也确实让我感受到了这些原理和公式的简单和优美,个别章节很受启发。

当我们看清事物的本质,就不会被混乱的表象所困扰。数学,把世界简化,而这些原理一通百通。还好学心理学有一点浅显的统计学基础,读起来不算费力。

“现实生活中,真正能够通用的工具在形式上必定是简单的。”让我惊讶的是,原来我们以为很复杂的科技手段的背后,应用的却是这些简单的原理和公式。不能说整本书都吸收了,只是大致了解,有所感悟,以后还需要时长翻看。总结最喜欢的几个章节。

1.统计语言模型。没想到计算机自然语言处理的背后竟是简单的条件概率统计。基本公式真的短得不能再短。后一件事情的发生必须基于前一件事情。这与critical thinking有点相似,计算做出判断需要无数层级的条件通过一步一步计算概率来推进。每个点之间必然存在关联。后面提到的马尔科夫链,也是很有趣的模型。其实都是从概率里衍生出来的。

2.布尔代数和搜索。运算的元素:1(true)和0(false)。基本运算:and,or,not。将无数资料进行编码,检索关键字,通过布尔代数转换成二进制数,输出结果。回想搜索功能确实如此。

3.图论和网络爬虫。广度优先搜索和深度优先搜索。

4.余弦定理和新闻分类。其实相当于聚类分析。使用向量和余弦定理度量两者的距离,其实就是判断相关性的强弱。这个方法真的有奇妙。

5.最大熵模型。应该是全书我最喜欢的一个原理吧。对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。朴素一点说,就是要保留全部的不确定性,不自以为是妄下定论。对于这点我非常感慨,平时总是尽量保持自己的客观理性,只确信比较可靠的信息来源评估事件的可能性和真实程度,面对传闻谣言始终保持没有可靠证据绝不主观臆断的态度。希望自己能保持严谨和critical thinking,讲逻辑、讲证据、讲推论。“最大熵模型在形式上是最漂亮,最完美的统计模型。”

6.马尔可夫链和贝叶斯网络。马尔可夫链就是一种状态序列,其每个状态值取决于前面有限个状态。当然啦,这是简化的理想模型。现实中,事物间的相互关系可能是交叉的错综复杂的,并不能用一条链简单串联起来。贝叶斯网络,即每一个状态只跟与其直接相连的状态有关,而跟与它间接连接的状态没有直接关系,只是没有直接因果关系,间接相关性还是可能存在的。emmm。。心理学总是用类似这种模型的瞎搞。

7.逻辑回归和搜索广告。想想自己竟然还玩过一次逻辑回归做模型,觉得真是naive。不过就是将不同的影响因素结合在一起做出一个方程啦。其实可以用来预测一些行为结果。不过建模的过程中需要对因素很敏锐,不然做不出来模型。

8.人工神经网络。唬人的名字,其实无非就是贝叶斯网络,同样遵从马尔科夫假设。机器学习的数学工具真的是一通百通,但是实际应用还是会遇到很多困难,毕竟现实复杂得多。

9.数据真的很重要。我很信奉下面这句话。因为感觉常常是和数据给出的结论是相反的,人的感觉毕竟是片面的,观察的现象也并非全面,除非你天赋异禀。

所以——“在没数据之前,不要给出任何结论。”

当然,数据量够大,采样有代表性才能给出最好的验证。嗯,统计学说得没错。还好本专业学了点统计,这种思想根深蒂固,也不会轻易被别人的忽悠带偏。另外,大数据在未来各行各业必有重要应用,从书中例子来看,对医疗的增益似乎非常大。实习的经历告诉我,各个公司都在沉淀数据,但他们还是希望通过大数据总结出人的偏好,为自己创造更多盈利。但是医疗方面的应用似乎对社会更有益处。“无论在什么领域,从事什么样的工作,谁懂得数据的重要性,谁会在工作中善用数据,就更有可能获得成功。”

看这本书其中一个重要原因是受到了沈博文老师的启发,尝试用这种方式理解世界,做人会更清楚吧哈哈。很久之前,还是高中的时候吧,我就想什么样的人最吸引我,或者我愿意和怎样的人相处,答案是——理科思维,文科气质。这句话至今萦绕耳边,自己似乎也正在用八个字完善自己。啊,学好数学和统计。数学有意思哦。

你可能感兴趣的:(简单之美—《数学之美》阅读笔记)