《数学之美》吴军-读书笔记

  1. 信息的冗余是信息安全的保障。
  2. 早起数字并没有书写的形式,而是掰指头,这就是我们今天使用十进制的原因。
  3. 1970年以后统计语言学的出现使得自然语言处理重获新生,并取得了今天的非凡成就。
  4. 一个句子是否合理,就看它的可能性大小如何。至于可能性,就用概率来衡量。
  5. 事实证明,统计语言模型比任何已知的借助某种规则的解决方法更有效。 
  6. 词是表达语义的最小单位。
  7. 最好的一种分词方法应该保证分完词后这个句子出现的概率最大。
  8. 任何方法都有它的局限性,虽然利用统计语言模型进行分词,可以取得比人工更好的结果,但是也不可能做到百分之百准确。
  9. 通信的本质就是一个编解码和传输的过程。
  10. 一条信息的信息量与其不确定性有着直接的关系,可以认为,信息量就等于不确定的多少。
  11. 变量的不确定性越大,熵也就越大,要把它搞清楚,所需信息量也就越大。
  12. 在英语里,信息和情报是同一个词(Information),而我们知道情报的作用就是排除不确定性。
  13. 信息是消除系统不确定性的唯一办法。
  14. 几乎所有的自然语言处理、信息与信号处理的应用,都是一个消除不确定性的过程。
  15. 合理利用信息,而非玩弄什么公式和机器学习算法,是做好搜索的关键。
  16. 所谓两个事件相关性的量化度量,就是在了解了其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
  17. 我一直认为,一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物。
  18. 技术分为“术”和“道”两种,具体的做事方法是术,做事的原理和原则是道。这本书的目的是讲道而不是术。
  19. 二进制的历史其实很早,中国古代的阴阳学说可以认为是最早二进制的雏形。
  20. 布尔代数对于数学的意义等同于量子力学对于物理学的意义,它们将我们对世界的认识从连续状态扩展到离散状态。
  21. 常用的索引需要访问速度块,附加信息多,更新也要快。
  22. 一个商业的网络爬虫需要有成千上万个服务器,并且通过高速网络连接起来。
  23. 在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。
  24. TF-IDF的概念被公认为信息检索中最重要的发明。TF:词频;IDF:逆文本频率指数
  25. 智能手机的定位和导航功能,其实只有三项关键技术:第一,利用卫星定位;第二,地址的识别;第三,根据用户输入的起点和终点,在地图上规划最短路线或者最快路线
  26. 有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这些状态的有向弧。
  27. 所有的导航系统都采购动态规划(DP)的办法,这里面的Programming一词在数学上的含义是“规划”。
  28. 正确的数学模型可以将一个计算量看似很大的问题的计算复杂度大大降低,这便是数学的妙用。
  29. 在计算机科学领域,一个好的算法应该像AK-47冲锋枪那样:简单、有效、可靠性好而且容易读懂(或者说易操作),而不应该是故弄玄虚。
  30. 新闻分类乃至各种分类其实都是一个聚类问题,关键是计算两篇新闻的相似程度。
  31. 对于任何问题,我们总是在找相应的准确的数学模型。
  32. 最大熵原理:保留全部的不确定性,将风险降到最小。
  33. 数学的妙处在于它的每一个工具都具有相当的普遍性,在不同的应用中都可以发挥很大的作用。
  34. 过去20年里,在机器学习和自然语言处理领域,80%的成果来自于数据量的增加。
  35. 云计算的关键之一是,如何把一个非常大的计算问题,自动分解到许多计算能力不是很强大的计算机上,共同完成。
  36. 人类的文明与进步,从某种意义上讲是通过对数据进行收集、处理和总结而达成的。
  37. 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
  38. 如果数据具有代表性,统计量又足够,那么从这些数据中得到的统计结果,对我们的工作就有非常大的指导意义了,对产品质量的提升也大有帮助。
  39. 大数据更重要的在于它的多维度和完备性,有了这两点才能将原本看似无关的事物联系起来,恢复出对事物全方位完整的描述。
  40. 除了IT行业,医疗保健是对大数据最热衷的行业。

你可能感兴趣的:(数学,人工智能,数据分析,线性代数,概率论)