weixin_30443075

《数学之美》-吴军读书笔记

从吴军的《数学之美》找到了伽莫夫的《从一到无穷大》，前段时间先整理了《从一到无穷大》的笔记。现在整理下《数学之美》以巩固下。

近段时间AlfaGo 与人的围棋大战进行的非常火热，人间对AI、围棋的讨论都特别的热闹，这是《数学之美》后，又一个来自Google的讯息。突然对写这篇笔记感到激情蓬勃。

几句话的书评：

这是一本科普书，书中介绍了如何应用数学来解决数字领域内的诸多问题，包括自然语言处理、搜索引擎中的诸多问题。我们首先对自然语言处理、搜索引擎有过直观的认识，便更有兴趣去理解这些如此酷的事物中的原理。我想这是能读下这本书，于我来说最大的动力，也是这本书最吸引人的地方——它试图用最直白的语言阐释我们触手可及的玄妙，而且成功的做到了。现代教育中，如果能够引入这样的方式，即，知识和很酷的应用结合，我相信应该会成效颇丰。

接下来的内容，对书中的一些句子做了摘录，并简单描述书中介绍的原理。

从希腊哲学到现代物理学的整个科学史中，不断有人力图把表面上极为复杂的自然现象归结为几个简单的基本概念和关系。这就是整个自然哲学的基本原理——爱因斯坦

简单性和模块化是软件工程的基石；分布式和容错性是互联网的生命。——蒂姆·伯纳斯·李（WWW的发明人）

分布式计算和服务器集群，甚至到磁盘阵列，都利用类似这种分布式的处理概念。而模块化和简单性则是模块复用，提升软件编写效率的基本规则。

数学是上帝描写自然的语言。——伽利略

纯数学使我们能够发现概念和联系这些概念的规律，这些概念和规律给了我们理解自然的钥匙。——爱因斯坦

第一章文字和语言vs数字和信息

本章介绍了很多信息论相关的知识，在我的脑海中第一次把文字和数字作为信息在概念上进行了统一。

“语言和数学的产生都是为了同一个目的——记录和传播信息。”

文字的起源

“我们的祖先迅速学习新鲜的事物，语言也越来越丰富，越来越抽象。语言描述的共同要素，比如物体、数量和动作便抽象了出来，形成了今天的词汇。当语言词汇多到一定的程度，人类仅靠自己的大脑已经记不住所有的词汇了。这就如同今天没有人能够记住人类所有的知识一样。于是，高效记录信息的需求便产生了，这便是文字的起源。”

概念的聚类以及引发的问题

依据上下文来处理文字聚类带来的歧义性。

在文字的产生过程中，我们不可能为每一个我们遇到的事物创建一个字或者词来描述，因为人们往往很难记住那么多的文字，于是有了文字按照意思来进行聚类，汉语中我们有多音字、多义字也是出于这样的考虑。由此引发的问题，对字词概念的理解时，最终会带来一些歧义。歧义问题的解决多数是依据上下文来进行进一步的处理。（这在后面做自然语言处理时也用到了这样的方式来处理）

文字和数字本身，实际上是对现实世界人类认识的一种编码。

在这里想起了之前看的电视节目《中国成语大会》，由此联想到很多事物的聚类可能比单纯的字词的聚类更复杂，像是“成语”也是一种特殊的事件的抽象。

也想起了一篇文章中关于未来电影桥段的笑话，未来我们对所有的笑话进行编码，当所有人都具备对这些编码理解的知识时，我们说笑话就会是这样：“0851”，就能引起了满堂大笑，就好像现在说个“嘿嘿嘿”也能哄堂大笑一样，而电影将变成一种编码组合的技术。编码是一种抽象，聚类是对这些抽象进行一定规则的整合。

进一步有联想到了《最强大脑》中，记忆高手对记忆事物的编码，用一种自己熟悉的编码方式，把需要记忆物体的特征，进行特定的编码，回忆时进行高效的解码。就比如常用的记忆术中，在教你如何记住一长串无关联的事物时采用的方法：比如说让你记一长串水果的名字，首先让你选一条你最常走、最熟悉的道路，走一段路就和一种水果发生交集，在回忆时就再把那段路在走一遍，实际上使用最熟悉的直观经验抽象，对这些需要记忆的事物做了一个编码。

再回到现在的编程技术中，目前最能规避歧义的抽象语言，应当是各种编程语言了，编程语言和自然语言相比，需要描述的东西较少，仅仅限定在描述“逻辑”和“数理”这件事情上，自然语言需要描述的明显比“逻辑”宽泛很多。不可否认，编程语言的编码方式也在不断向自然语言编码方式靠近，以求可以更简单的让人理解。

本章援引了一些现有技术最初的借鉴。

“罗塞塔石碑”

罗塞塔石碑是一块在罗塞塔这个地方被发现的，使用三种语言记录了托勒密（我也不认识）五世登基的诏书。这块石碑的意义在于： “ 使得近代的考古学家得以有机会对照各语言版本的内容后，解读出已经失传千余年的埃及象形文之意义与结构，而成为今日研究古埃及历史的重要里程碑。”（百度百科）信息冗余，使得这块石碑的内容得以在经过历史这条“信道”进行传承时，保留完整的数据信息，人们对信道编码的冗余进行了思考。（当今很多的翻译软件和服务都叫做“罗塞塔”）

“古犹太人的圣经校验码”

虔诚的教徒们，为了保证在不抄错圣经，将每一个希伯来字母对应一个数字，每一行的字母相加会得到一个数字，每一列的字母相加相加会得到一个数字。在抄写完一行之后将新的校验码与原文的对照，看是否相同。这样的方式真心累，也就拼音文字这种不直观的表达文字容易出问题。象形文字反倒容易直观的看出来，不过，毕竟象形文字不能简单的数字编码，不可能做这样的编码（汉字有四角码哟，不过操作起来感觉也好累）。

“中国古人的文言文编码”

中国人有一个很直观的概念，文言文比白话文精简、凝练。本书中提出，这样的古文书写方式，是为了在“信道”——竹简、布帛（那时候成本比较高）上尽量承载更多的信息，而对白话文的信息做了一定程度上的压缩编码。我第一次在这个角度上理解中国的文言文。嗯，这一压缩，“丰富”了多少个高中的早自习。

”印度人发明了0-9这10个阿拉伯数字“

”不会唱歌的厨子，不是好司机“

-------------------------------------------------

第二章自然语言处理从规则到统计

语言，一直被认为是地球上生物中人类的特质。早期人们相信，如果需要处理语言的信息，就必须让机器具有一定的智能。由此本章实际从人工智能这件事情出发来引出自然语言处理。

”图灵测试“

这是个任性的测试，用于定性机器是否具有人工智能，测试的结果很主观，让测试者和机器交流，只要测试者分辨不出与他沟通的是人还是机器，那么ta就具有人工智能。电影《机械姬》就主要就是讲述了一个类似的测试，不过，私下将《机械姬》定义为一部恐怖片。恐怖之处在于，ta 懂人性条件下人的行为模式却没有人性，知道道德体制下人的作为而不知道自己应该受道德的约束，电影中ta成功的欺骗了男主角……关于人工智能和人类的情感互动《她》这部电影中也描述的很好。

”一次伟大的会议“

”达特茅斯夏季人工智能研讨会“ 这场会议中讨论了当时计算机科学领域内没有解决的问题：人工智能、自然语言处理、神经网络等。虽然会议并没有实质上解决什么问题，但是吴军认为”达特茅斯会议的意义超过10位图灵奖“ 与会的10位科学家每一位在各自领域内都做出了非凡的成绩。

“早期的语言处理思路和基于统计的语言处理的提出”

直到前不久，我仍然认为自然语言处理的计算机，至少有了和我们一样的理解语言的能力。而最初的自然语言处理的思路，也是向着让计算机理解句子结构出发来做自然语言处理的。早期的自然语言处理系统的设计如下图所示：

在这样的系统设计之下，即使是一条非常短的句子，也需要一个长长的语法分析树来对句子进行分析。而对于不同的句子，需要有不同的语法分析方式，早期的语法分析规则全是由人工录入的。书中列出了对于文法分析规则中面对到的两个突出问题：

1.首先，要想通过文法规则覆盖哪怕20%的真实语句，文法规则的晒单至少也是几万条。

2.即使写出涵盖所有自然语言现象的语法规则集合也很难用计算机来解析。（基于上下文的文法分析，复杂度是语句长度的六次方）

“可以说，利用计算机处理自然语言的努力直到20世纪70年代初始相当失败的。1970以后的统计语言学的出现使得自然语言处理重获新生，并取得今天非凡的成就。推动这个技术路线转变的关键人物是 Frederick Jelinek 和他领导的IBM华生实验室。”基于统计的方法，使得IBM将当时的语音识别率从70%提升到了90%，同时语音识别的规模从几百单词到几万单词，这样语音识别从实验室走向实际应用的成为可能。

-------------------------------------------------

第三章统计语言模型

统计语言模型，直观的表达是：“ 看一个句子合理，就看它的可能性大小如何。”（贾里尼克）

语料库中前一个词出现后后一个次出现的概率，一个句子的概率的计算公式如下：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

这样的方式在计算上比较麻烦，而有了一个较为偷懒的假设“马尔科夫假设”，假设后一个词的出现只与前一个词相关，公式的形状如下：

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…

这种假设的局限性在于：“ 在自然语言中，上下文之间的相关性跨度可能很大，甚至可以从一个段落跨到另一个段落。因此即便再怎么提高模型的阶数，对这种情况也无可奈何. ”

模型的训练

一个直观的表达是：“ 通过对语料进行统计得到上面公式中所有的条件概率。 ”的过程即为模型训练。

大数定理告诉我们：“ 在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。 ”使得当语料库越庞大时，我们能获得越精准的条件概率。就好像，我们对一个事情发展的预估，往往和我们在这件事情上的直观经验的积累相关。

对于语料库中没有出现过的词的组合

古德-图灵估计： “对于没有看见过的事件，我们不能认为它发生的概率就是零，因此我们从概率的总量中，分配一个很小的比例给这些没有看见的事件。”

-------------------------------------------------

第四章谈谈分词

分词的概念，即表达出什么样的组合算是一个“词”，从句子中把“词”提取出来。

分词的尝试如下：

查字典法：“把句子从左到右扫一遍，发现字典里有的词就标注出来，遇到复合词就用最长的词来匹配，遇到不认识的字串就分割为单字词，于是简单的分词就完成了。”（无法处理复杂情况）

统计语言模型的分词方法

假定一个句子有多种分词方法，那么我们看看这几种分词方式出现的概率有多大，采用出现概率最大的分词方式。

分词在中文、韩文、手写英文识别中尤为重要。

"分词的不一致性分为错误和颗粒度不一致两种，错误分为两类，一类是越界型错误，另一类是覆盖型错误。"

-------------------------------------------------

第五章隐含马尔科夫模型

隐含马尔科夫模型最初应用于通信领域，继而推广到语音和语言处理中，成为连接自然语言处理和通信的桥梁。同时，隐含马尔科夫模型也是机器学习的主要工具之一。和几乎所有的机器学习模型一样，它需要一个训练算法（鲍姆-韦尔奇算法）和使用时的解码算法（维特比算法），掌握了这两类算法，就基本上可以使用隐含马尔科夫模型这个工具了。

“ 隐马尔可夫模型是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。” 所以，隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来，HMM被应用于语音识别，取得重大成功。到了90年代，HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。HMM在生物信息科学、故障诊断等领域也开始得到应用。——《百度百科》

暂时没有看懂算法，先在这做个记录，有个直观的感受。

1.它的状态不能直接观察到

2.能通过观测向量序列观察状态

隐含马尔科夫链是一种缺失了某些状态信息的马尔科夫链，需要通过特定的方式找出这些参数信息。

知乎上有一篇帖子：如何用简单易懂的例子解释隐马尔可夫模型

-------------------------------------------------

第六章信息的度量和作用

1.“自古以来，信息和消除不确定性是有联系的。”

2.“从某种程度来说，信息量就是不确定性的多少。” （香农定理）

3.“网页搜索本质上也是利用信息消除不确定性的过程。”

“合理的利用信息，而非玩弄什么公式和机器学习的算法，是做好搜索的关键。”

互信息

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

一种直观的表述是：一件事情发生可能会对另一件事情的发生提供参考，即提供有用的辅助信息。

互信息在自然语言处理的使用：

主要用于在处理多义词的识别时，利用上下文中的词的信息来确定多义词在本文中是什么意思。

书中的一个例子是：人名“布什”（Bush）的翻译，它可以译为人名也可以译为“小树丛”。那么如何确定要译为什么呢？一种方法是：分别列出和人名Bush以及“小树丛”Bush出现在一起的概率最大的词（互信息值最大），在检查看看上下文中那类词出现的次数多，哪个多久翻译为哪一个。

哈哈，万一有个植物学家Bush喜欢在小树丛里闲逛那就有点麻烦了吧？

-------------------------------------------------

第八章简单之美布尔代数和搜索引擎

这一章中讲述了一个搜索引擎大致做的工作，也在这里第一次对搜索引擎有了一个技术上的概念。

在此处引入布尔代数，主要是因为其中定义了二进制的逻辑运算方式。

“搜索引擎的原理其实非常简单，建立一个搜索引擎大致需要做这样几件事情：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。”

书中分开几章来介绍，如何下载，如何索引以及如何排序的问题。

一个直观的搜索过程是，输入一个“词”比如说：“辛尼玛是个大傻瓜。”搜索引擎在已经下载好的所有网页中，进行不同颗粒度的“句词”匹配。看哪些网页中有整个句子或者这些搜索词“辛尼玛”“是个”“大傻瓜”，采用特定的网页排序方式对拥有这些关键词的网页进行排名，最终看到的便是我们看到的搜索结果。

整件事情和布尔代数相关的地方在于，布尔代数中定义的逻辑值“true”和“faulse”的运算，可以用非常简单的方法表征出一个网页是否有特定的关键词。并能进行有效的逻辑运算，而布尔代数的逻辑运算在计算机的实现上是非常简单的。

书中介绍了一种简单的索引方式，在这写一个简单的例子：

假如整个互联网有5个网页，我们需要从这5个网页中搜索出“辛尼玛”相关的网页，如何从5个网页中挑选出和我输入的搜索词相关的网页呢？

对于每一个词有一个5bit的二进制数，来表示5个网页中是否有这个词。

例如：

辛尼玛：11011 那么表示只有第三个网页中没有这个词的出现。

在索引时就将四个有“辛尼玛”这个关键词的网页列出来，至于列出后如何排序则是本书后面的章节要说的内容。

“常见的搜索引擎通常会对所有的词进行索引” 意味针对每一个词都有一个这样的二进制数，所以实际搜索引擎面对的就是这样一个二进制数表来进行字词的搜索。我们可以想象互联网上有多少个网页，书中假定当互联网上有100亿个网页时，保守估计词汇表的大小为30万，索引的大小是100亿×30万 = 3000万亿。通常的索引中会存更多的信息，因此这个大小会更大。一个服务器的内存是不可能存下整个索引的，因此，普遍的做法是：“根据网页的序号将索引分成很多份，分别存储在不同的服务器上。” OK，至此，重温下这句：“ 简单性和模块化是软件工程的基石；分布式和容错性是互联网的生命。——蒂姆·伯纳斯·李（WWW的发明人）”

听起来，搜索引擎使用了一个很笨的办法来做搜索，与一个图书馆做对比的话，实际上是它把图书馆所有的书都记住了，并为每一个词写了一张数万亿列的表，每次有人问他，这个词在哪些书中有的时候，他就把表拿出来找一下，根据他的经验丢一堆书给你。当然，往往是你给定的修饰词越多他给出的答案就越准确（就是你给出的信息量越大，他给出的答案越准确，因为你消除了一定的不确定性，霍霍，好像绕回到信息论了）。不过，谁让人家有数以万计的脑袋，转速还比你快呢。哈哈

说到这，突然想起之前一直想学习下图书馆学，这个冲动来源于一个这样的认识：任何一个知识体系、事物的组织体系，总是从事物的分类和关联来组织的，想要去见识下人类对知识和事物的分流方式以及处理他们的关联的方式，我想一定可以在图书馆学中找到一些有用的信息。

-------------------------------------------------

第九章图论和网络爬虫

这一章讲搜索引擎用了什么样的数学原理，把整个互联网下载下来。

这件事情和图论相关的地方在于，需要利用图论中的遍历算法（Traverse）来下载整个互联网中的网页。

没学过图论，尴尬不过这有一篇文章我觉的挺好，我粗翻了一遍，有个大概的认识：图论算法有图有代码万字总结向前辈致敬

能够和图论关联起来，实际上是出于这样一个认知：多数互联网网站必定能通过其他网页链接到。就是说这些网站总能从某个网站上的链接，链接过去，形成一条通路。这个时候就回到了从“七桥问题”出发的图论问题。像有一张网，一只小虫子要走过网上所有的点。

相关细节请看：“网络爬虫”

（不行了，想起惨痛的数模竞赛打酱油的经历，泣不能言）

-------------------------------------------------

感觉时间花太多了……还是几句话总结下使用了什么方法解决什么问题吧。

-------------------------------------------------

第十章 PageRank google的民主表决式网页排名技术

“在互联网上，如果一个网页被很多的其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。这就是pagerank的核心思想。当然谷歌的PageRank算法实际要复杂很多。” 详情见 google pagerank 百度百科

“网页排名算法的高明之处在于它把整个互联网当作一个整体来对待。”

-------------------------------------------------

第十一章如何确定网页和查询的相关性

使用一个词在文章中出现的频率做出一个相关性的评价，同时将这个词的“主题”性价值作为权重加入到这个评价的生成过程中。

影响搜索引擎质量的诸多因素，出了用户点击数据之外，都可以归纳成下面四大类问题：

1. 完备的索引。俗话说巧妇难为无米之炊，如果一个网页不再索引中，那么再好的算法也找不到。

2.对网页质量的度量，比如PageRank。现在看来PageRank 的作用比十年前已经小了很多。今天对网页质量的衡量是全方位的，比如对网页内容权威性的衡量，一些八卦网站的PageRank可能很高，但是他们内容的权威性很低。

3.用户偏好。因为不同用户的喜好不同，因此一个好的搜索引擎会针对不同的用户，对相同的搜索给出不同的排名。

4.确定一个网页和某个查询相关性的方法。

文中说了一个TF-IDT的方式，即看一个词在整篇文章中出现的词频。

一个小漏洞是，对于通用词比如说“应用”和专业词汇“原子能”这样的词汇，通用词的词频一定会比主题词的词频高。这个时候就需要对不同的词进行权重的设定。

1. 一个词预测主题的能力越强，权重越大，反之越小。

2.停止词的权重为0 。

如何使通用词获得较低权重，文中描述了这样的方式：如果一个词w在Dw个网页中出现过，Dw越大则w的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数”IDF。

-------------------------------------------------

第十二章有限状态机和动态规划——地图与本地搜索的核心技术

状态机在数字电路设计中使用的很多，刚好在课设中做过DTW的HDL设计，这一章和我的经历还蛮相关的。

在有限状态机中介绍了，地址信息的解析方式：

但是在当用户地址不太标准或者有错别字时，有限状态机就会束手无策，因为它只能进行严格的匹配。为此科学家们提出了基于概率的有限状态机。

要寻找北京到广州的最短路径，使用的动态规划问题实际和DTW很像。

先计算出从北京出发到这条线上所有的城市的最短路径，最后得到一个到达广州的最短路径。

-------------------------------------------------

第十三章 Google AK-47 的设计者——阿密特·辛格博士

-------------------------------------------------

第十四章余弦定理和新闻分类

余弦定理在新闻分类中的使用，实际是利用两篇新闻的主题词组成的向量之间的夹角的大小来确定新闻的归类。

在使用中有一个简单的认定，相类似的主题词出现的概率越相似的新闻，那么他们之间的相似性越大，可进行归类。如何评价多个主题词之间的相似性呢？见下文：

如何应用余弦定理呢？假设，整个网络中有64000个词，那么将这64000个词进行编号，组成一个64000维的空间，每一篇文章中指定词出现的TF/IDF值作为该文章在该空间中指定方向上的坐标值。那么，一篇文章中所有的主题词的TF/IDF值组成了这篇文章在这个64000维度空间中的一个向量。将两篇文章组成的两个向量放在一起，我们计算两个向量的夹角，以确定这两篇文章的相似性。当余弦值越接近于1时，两篇文章越相似，反之越接近于0，则越不相似。

-------------------------------------------------

第十五章矩阵运算和文本处理中的两个分类问题

本章解决一个问题：如果使用第十四章中引入的向量距离的方法，对数以亿计的网页进行距离计算，计算量过于巨大，而引入了矩阵的运算来计算新闻之间的相似性，一次性把多个新闻的相似性计算出来。利用了矩阵运算中的奇异值分解。（有没有联想到《线性代数》中矩阵之间向量的线性相关的运算？）

这种方式，将多个新闻的向量组成的矩阵分解为三个小矩阵相乘，使得计算存储量和计算量小了三个数量级以上。

效果：只要对新闻关联性矩阵进行一次奇异值分解，既可同时完成近义词分类和文章的分类。

计算方法：庞大的网页量，使得计算量非常大，因此需要很多的计算机并行处理。

google中国的张智威博士实现了奇异值分解的并行算法。

-------------------------------------------------

第十六章信息指纹及其应用

“所谓信息指纹，可以简单的理解为将一段信息，随机的映射到一个多维二进制空间中的一个点（一个二进制数字）。只要这个随机函数做得好，那么不同信息对应的这些点就不会重合，因此，这些二进制数字就成了原来的信息所具有的独一无二的指纹。”

本章中大略介绍了信息之为在如下领域内的应用：

网页消重。
网络加密传输。
搜索中集合相同的判定。
检查文章抄袭的问题。
YouTube的反盗版。

1.网页消重

为所有的不定长的网址随机的映射为一个128bit的二进制数。 “ 把网址内存需求量降低到原来的1/6不到。”这个就是网址的信息指纹。“可以证明，只要产生随机数的算法足够好，就能保证几乎不可能有两个字符串的指纹相同，就如同不可能有两个人的指纹相同一样。”

网页的信息指纹计算的方法： 1. 将网址字符串看成一个特殊的、很长的整数。2.使用伪随机数产生器算法（PRNG）将这个整数转换成为固定长度的伪随机数。（提及了PRNG算法和梅森旋转）

2.网络加密传输

“信息指纹的一个特征是其不可逆性，就是说无法根据信息指纹推断出原有的信息。这种性质正是网络加密传输所需要的。”

一个网站可以根据用户本地客户端的cookie识别不同的用户，而cookie本身即为一种信息指纹。但是网站无法根据信息指纹了解用户的身份。

cookie 本身没有加密，因此通过分析cookie可以知道用户访问了哪些网站。（不知道在做购物广告推送时，有没有用到这样的方式来偷瞄我的cookie，然后推送我搜索过的内容到我看的网页上。）

HTTPS 可以对cookie进行加密，可以保障用户的隐私。

3.搜索中集合相同的判定

用于解决：“北京星巴克中关村” “ 中关村北京星巴克 ”判定为同一个搜索的问题。

方法1. 对集合中的元素一一对比。

方法2. 将两个集合中的元素进行排序，然后顺序比较。

方法3.完美的计算方法是，计算两个集合的指纹。

4.检查文章抄袭的问题

刚好临近毕业，查重是所有的论文需要面对的问题，了解下。

”将每一篇文章切成小的片段，然后上述方法条熏这些片段的特征词集合，并计算它的指纹。只要比较这些指纹，就能找到大段相同的文字，最后根据时间先后找出原创和抄袭。“

5.YouTube的反盗版

用信息指纹来编码关键帧信息，而关键帧信息对于视频的重要性就如同主题词对于新闻的重要性一样。

-------------------------------------------------

第十七章谈谈密码学的数学原理

”不管怎样，我们今天用的所谓的最可靠的加密方法“……”无非是找几个大素数做一些乘除和乘方运算“

之前表哥分配给了我一个关于AES加密的FPGA小项目的任务，可惜具体的知识都忘记了。大约记得矩阵乘来乘去的。

-------------------------------------------------

第十八章谈谈搜索引擎反作弊问题和搜索结果的权威性问题

搜索引擎的作弊，实际是利用搜索引擎的搜索排名规则，人为的提升网页的排名的方式。

”有了网页排名（pagerank）后，作弊者发现一个网页被引用的链接越多，排名家可能越靠前，于是有了专门卖链接的生意。“

提到的方法：

1.判断一个网站提供的外链的相关性。如果几乎不相关，那么认定这个网站在卖链接。当然实际的处理方法更加复杂。

-------------------------------------------------

第十九章谈谈数学模型的重要性

一个正确的数学模型应当在形式上是简单的。（托勒密的模型显然太复杂。）
一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确，但是如果我们认定大方向是对的，就应该坚持下去。（日心说开始并没有地心说准确。）
大量准确的数据对研发很重要。
正确的模型也可能受噪音干扰，而显得不准确；这时我们不应该用一种凑合的修正方法来弥补它，而是要找到噪音的根源，这也许能通往重大发现。

来源： http://www.cnblogs.com/hold/archive/2011/07/27/2286793.html

-------------------------------------------------

第二十章谈谈最大熵模型

最大熵原理：说白了，就是要保留全部的不确定性，将风险降到最小。
“不要把鸡蛋放在一个篮子里，是最大熵原理的一种朴素说法。”
最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。（不做主观假设这点很重要。）
最大熵模型存在的【证明】：匈牙利著名数学家、信息论最高奖香农奖得主希萨（Csiszar）证明，对任何一组【不自相矛盾】的信息，这个最大熵模型不仅存在，而且是唯一的。而且它们都有同一个非常简单的形式 -- 指数函数。
书提到的最大熵原理【应用】：

拼音和汉字的转换：1.根据语言模型：wang-xiao-bo 可以转换为：王小波和王晓波两种情况。2.根据主题，王小波是作家《黄金时代》的作者，而王晓波是研究两岸关系的学者。根据这两种信息创建一个最大熵模型。
最大熵模型应用于信息处理优势的第一次验证：应用最大熵原理，创建了当时世界上最好的词性标识系统和句法分析器。其做法即为使用最大熵模型成功的将上下文信息、词性、名词、动词、形容词等句子成分、主谓宾统一了起来。
2000年以后，句法分析、语言模型和机器翻译，都开始使用最大熵模型。
对冲基金使用最大熵。
孪生兄弟的达拉皮垂他们在九十年代初贾里尼克离开 IBM 后，也退出了学术界，而到在金融界大显身手。他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大，但现在是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)。我们知道，决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。达拉皮垂兄弟等科学家在那里，用于最大熵模型和其他一些先进的数学工具对股票预测，获得了巨大的成功。

来源： http://www.cnblogs.com/KevinYang/archive/2009/02/01/1381798.html

最大熵模型的【训练】：

计算量庞大的【GIS】：GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。
GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。
改进的迭代算法【IIS】：
八十年代，孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。
吴军的改改进和他的论文：（链接在此）
发现一种数学变换，可以将大部分最大熵模型的训练时间在 IIS 的基础上减少两个数量级

-------------------------------------------------

第二十一章拼音输入法的数学原理
这一章实际把我们所熟悉知道的中文输入法梳理了一遍：

五笔、全拼、双拼

可惜没有分析手机端的 9宫格输入法，九个键覆盖所有可能的拼音组合，其实真的还比较神奇。

主要引入的数学原理是，

中文输入法的击键次数的数学原理
【香农第一定理】指出：对于一个信息，任何【编码长度】都不小于它的【信息熵】。因此，上面的平均编码长度的最小值就是汉字的信息熵，任何输入法不能突破信息熵给定的极限。
【汉字信息熵的计算】在GB2312中一共有6700左右个常用汉字。
a. 假定每个汉字出现的相对频率为：
b. 编码长度
c. 平均编码长度：
d. 得出汉字的信息熵：不考虑上下文的关系，信息熵的大小大约为【10bit】
e. 单个字母代表的信息熵：假定输入法只能要我26个字母来输入，那么每个字母可以代表log26 = 4.7 比特的信息，也就是说，一个汉字的输入，平均需要10/4.7 约为2.1 次击键。
f.组成词后信息熵减少：如果把汉字组成词组，再以词为单位统计信息熵，那么每个汉字的平均信息熵就会减少。如果不考虑上下文关系，汉字的信息熵大约是8bit，以词为单位每个汉字平均只需要8/4.7 = 1.7次击键
g. 考虑上下文信息信息熵进一步减少：如果考虑上下文关系对汉语建立一个基于词的统计语言模型，可以将汉字的信息熵降低到6bit左右。此时平均需要的击键次数约为：6/4.7 1.3次击键。如果一种输入法能够做到这一点那么汉字的输入就比英文快多了。（我觉得手机的9宫格汉字输入法挺给力的。）
【全拼输入法的信息熵】汉语全拼平均长度为2.98，只要基于上下文能彻底就解决一音多字的问题，平均每个汉字的输入应该在3个键以内。可以实现汉字拼音输入一部分后提示出相应的汉字。
如何利用上下文呢？
拼音转汉字的动态规划算法

【输入法做的事情】是：按照输入的序列，查找该条件下的句子。
图中 y 代表输入的拼音字符串，w代表输出候选汉字。每一个句子和途中的一条路径对应。
拼音输入法的问题，变成了一个寻找最优路径的问题。
【最优路径】和计算城市间的最优路径不同，其中的距离是实际上的一个点到另一个点的距离，而在拼音输入法的路径中，两个候选词之间的距离是w伸向下一级w的概率。

实际上输入法作出的计算是这样，输入一串拼音字母字符，软件通过模型计算出与词拼音对应的出现概率最大的汉字候选结果。

关于【双拼】：

因为我刚好是双拼爱好者，哈哈，刚好对文中对双拼的评价比较在意：

首先，书中说了这样几点哈~：

双拼的出现比全拼要早；
而五笔输入法这种敲键次数多，编码难记忆的输入法早期的成功完全是开发者市场做的好。
现在主导地位的是全拼输入法。

双拼输入法出现的比全拼早，而且击键次数更少，为什么被全拼所替代？

书中中指出了它的三个缺点：

首先双拼输入法增加了编码上的歧义性，很多韵母不得不公用一个按键，增加歧义性的后果是：从更多的汉字候选中选择自己想输入的字。下图为双拼的编码表。（比五笔字根容易多了吧？想起小时候背字根的痛苦经历？还好我没背~哟西）
增加了每一次击键的时间，理由是，你每次都需要去想该按哪个键。（哎，其实对于初学者来说，记住键盘都难，不是每个人都会左右手食指摸点（FJ）盲打的。这个比五笔简单一万倍，该数字没有经过科学验证啊）
对拼音的容错性不好，就是说，地域性的口音，使得前鼻音后鼻音、l、n之类的混淆词不好即时纠错。（现在想想五笔真就是一坨屎，它估计从来没有考虑过忘记字形的人的想法吧。）

来说下，我这个具有双拼输入法几年使用经验的人的看法哈。

就我个人技能上来说：

拼音能力还不错，虽然说话l，n部分，但是打字会注意。
在键盘上摸点后，可以准确盲打主键盘区域任何按键。

好，以这两点为基础，我们来说明双拼对与我的好处，也说三点：

速度很快：真的就两个键出一个完整的拼音，虽然真的只有编码输对了才能出正确的拼音，但是实际的打字速度比双拼快非常多。你在输入 chang 的时候，我输入 ih 就行了，还要排除单个字的全拼多次击键出错的情况下回删的情况。
精确输入拼音，回删时间比较少：想想是输入 chang 5个字母的拼音出错的概率大，还是输入2个字母 ih 的错误概率大（这个的前提是两种情况下，对两种按键的编码都熟悉，在同样的键盘条件下使用），如果错误概率一样，那么如果出错后修正，哪个的时间会比较少？
学起来实际上很快，它和全拼，在效果上实际是一个意思，就是完整输入拼音。而且现在的双拼支持在双拼条件下使用全拼，你记不起来就全拼输入就好啦。（快来和我一起用双拼吧）

-------------------------------------------------

第二十二章自然语言处理的教父马库斯和他的优秀弟子们

-------------------------------------------------

第二十三章布隆过滤器

-------------------------------------------------

第二十四章马尔科夫链的扩展——贝叶斯网络

-------------------------------------------------

第二十五章条件随机场、文法分析及其他

-------------------------------------------------

第二十六章维比特和他的维比特算法

-------------------------------------------------

第二十七章期望最大化算法

-------------------------------------------------

第二十八章逻辑回归和搜索广告

-------------------------------------------------

第二十九章各个击破算法和google云计算的基础

-------------------------------------------------

第三十章 google 大脑和人工神经网络

-------------------------------------------------

第三十一章大数据的威力

其实一直对怎么写读书笔记这个问题比较困扰，本想去找些书看看别人是怎么做的，后来觉得一方面，别人感兴趣的东西可能本身对我来说吸引力不大，希望可以只记录下我觉得有趣的东西，然后把它们和我知识体系尽可能做一些关联；另一方面，本来是件很随性的事情，不希望套在条条框框里。

怎么做读书笔记？看一本书需要记录什么东西？知乎的这一篇文章给了一些启示：怎么提高信息转化率？需要记录的事情我觉的有三类：

1. 概念，一些精辟、准确的对概念的陈述。

你需要几句话来知道这个事情是什么。

2. 方法，用什么方法解决了什么问题。方法，是发现事物之间联系的过程。

文学里面的比喻，用什么方法来喻事。科学里解决问题的设计，是精巧的事物联系。

谁做了这个事情，个人认为没那么重要。不过如果要对一个问题做深入的追踪，那么记录领域内的牛人也是必不可少的。毕竟，他们不是在这个领域那种只出现两集的小龙套，这些人基本会活到最后一集。

3. 对事情的看法，包括预测、评论、总结等等，是这件事情之于未来、现在和过去的意义。

对于人类这种在自我迷惘中不断寻求意义的生物来说，个人觉得第三点反倒是最重要的。

来自为知笔记(Wiz)

转载于:https://www.cnblogs.com/maxmin26/p/5412936.html

你可能感兴趣的:(《数学之美》-吴军读书笔记)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
《对生命说是》读书笔记2021-5-27 Diana_58d9
静心技巧——换个视角看待问题。尝试一下这个实验，1坐在椅子上，允许自己全身心的沉浸在你最爱的问题当中，你知道头脑热爱咀嚼他们，记录当你被卷入问题时的感受。2站起来有意识地离开那张椅子，想象你现在离开了你的问题。缓缓的围绕椅子走一圈，从不同的角度看看你的问题。在房间中找一个远离问题的空间，开始仔细深入的看看这个问题，他是真实的还是你制造出来的，同样的状况对于其他人来说会是问题吗？3反复体会作战问题里
精力是碎片化时代的核心竞争力——精力管理介绍爱写作的harry
《掌控：开启不疲惫、不焦虑的人生》读书笔记精力是碎片化时代的核心竞争力精力包括身、心两个层面，包括体力、专注力和意志力等多个维度。在信息爆炸、全球化竞争的时代，谁的体力充沛，专注力和意志力更强，谁获胜的机会就更大。而要做到这些，不做精力管理，一切都是空谈。另外，人的精力是有限的，表现会有高低起伏，所以需要管理，需要规划使用。怎样才算做到了精力管理精力管理是指主动掌握自己的体力、专注力和意志力，让自
《经营者养成记》读书笔记分享 37度杉杉
何为经营者：变革的能力、赚钱的能力、建设团队的能力和追求理想的能力。读书笔记：（一）经营的含义1、所谓经营者，就是取得成果的人2、所谓经营者，是抱持使命感，将使命与成果相结合的人3、经营者必须是领导者，具备“建设团队的能力”4、经营者必须为使命而生的人，具备“追求理想的能力”（二）为什么必须培养经营者？一、变革的能力1、抱持高远的目标2、质疑常识，不受常识束缚3、树立高标准、不放松不放弃4、不畏风
财富自由之路读书笔记2 Elaine_a963
继续财富自由读书笔记，今天就第十-二十三章进行归纳总结思考。这本书可以说是边学边练的武功秘籍。秘籍一：注意力。先从认知上刷新，先前谈到价值的重要性及单位价值提升的必要性。这里就引出了：“注意力”是在任何地方“挖掘”价值的最基本工具。那么，要自如运用注意力，就得练习。这里李老师给的无他，就是基本功训练扎实-坐享。秘籍二：活在未来。再一次颠覆认知，大众的思维是活在当下，而这里指引我们要活在未来。用正确
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
读书笔记语馨_f389
王聪丽坚持分享第1008天《亲密关系》期望就是通往地狱之路，因为期望会把接受和让人自由等充满爱意的感觉挡在门外。如果我不能接受别人现在的样子或不让他们自由地走自己的路，那么我就不是真的爱他们，我只是想从他们身上得到满足，与他们建立亲密关系的目的并不是为了爱，而是为了满足我小小的自私需求。我们可以觉察一下，在潜意识里，我对他有什么要求。让人惊讶的是，不开心的原因往往是沉睡多年的需求。不论是用暗示还是
《掌控习惯》第二遍读书笔记尼古拉斯咚
这本书反反复复看了两遍，每一遍对书中的内容都有不同的认识；以下是我的读书笔记和行动感悟读书的笔记和感悟好习惯+复利的力量是巨大的，这个可能是老生常谈的话题，但当我真正意识到，并重新开始审视自己日常生活中的习惯时才发现，坏习惯让我自己每天有不少时间浪费在了平庸上，随着时间的消逝我损失的也越来越多；生活中经常说“做时间的朋友”，“延迟满足”之类的话，但这些都有一个前提条件是只有当你真正是养成了好的习惯
【0220读书笔记】面对压力怎么办正本
人生每一天都是现场直播，所谓的人前显赫，不过是以往的极致积累付出所换来的。今天看到江南春谈到他过往的创业史，也并不是一帆风顺，顺风顺雨的。恰恰相反，在他创业的道路上，每一步都是如履薄冰，都是受宠若惊，竞争对手也会层出不穷，虎视眈眈向其发起挑战。001.量力而行与全力以赴在创业初期，我们的态度就应当是敢想敢做，全力以赴，因为不拼就不会有机会。当我们进入经营时期时，就要综合评判，尽自己所能去行事，万不
2022-08-3读书笔记静待花开20
❤️据报道，有些人在面对及其重要甚至关系到自身前途和命运的大事要做出决定时，往往不是挖空心思、深思熟虑，而是根据自己的内心感觉做出抉择。❤️据研究，人从看到一个物体到对它做出反应，全过程仅有0.07秒的时间。在这个过程中，仅是神经和主观意识参与了吗？不是。潜意识也是参与其中的。故曰：“所以任物者心。”❤️研究发现，人们在学习一种知识、机能后，如能美美睡上一觉，则会对所学知识、机能的消化、掌握很有裨
重读《新生-七年就是一辈子》- 26 不能容错的系统肯定是脆弱的 greenorchid
读后感想：我觉得自己的容错能力在学生，同事、朋友方面都还好，毕竟我很少和他们交流。但是，我对家人有时做的不好，容错能力反而较差，因此，有时会影响心情、注意力等。看了这篇文章，我能做到平心静气，不乱发脾气吗？我觉得有时能做到，很多时候可能还是做不到。读书笔记：今天的计算机科学里（包括它的“邻居”工程学里），都有一个重要的概念：容错（Faulttolerance）如果一个系统不能容错，那么它就是脆弱的
《野草》复仇（其一）读书笔记女人知书香
“复仇”是鲁迅从早年到晚年，念兹在兹，一以贯之的恶一个思绪。几十年间在他心头萦绕不去，回环往复，多次谈及，成为作品和思想的重要主题之一。人的皮肤之厚，大概不到半分，鲜红的热血，就循着那后面，在比密密层层地爬在墙壁上的槐蚕更其密的血管里奔流，散出温热。于是各以这温热互相蛊惑，煽动，牵引，拼命希求偎倚，接吻，拥抱，以得生命的沉酣的大欢喜。【议论】如有人以丽人刺穿其皮肤，则有鲜血喷灌于杀戮者，这是动态的
平平淡淡才是真——《菜根谭》读书笔记云卷韵舒
图片图片士君子之涉世，于人不可轻为喜怒，喜怒轻，则心腹肝胆皆为人所窥。于物不可重为爱憎。爱憎重，则意气精神悉为物所制。士大夫君子在世上，对人不能轻易流露自己的喜怒哀乐，否则，所有的心思都会被人看破；对世上万物，也不要过分喜欢或厌恶，否则，就会玩物丧志。心体澄澈，常在明镜止水之中，则天下自无可厌之事；意气和平，常在丽日光风之内，则天下自无可恶之人。如果心如明镜，世上就没有心烦之事；心态平和，世上就没
读《野草》有感雨后晴天的女孩
这段时间有点懒，看过的书都没有做读书笔记，也就没有写读后感。但今晚看鲁迅的散文诗集《野草》时，却做了很多的笔记（主要是抄好词好句），突然就有了一种想写的冲动，虽然不知道要写点什么，但是随便写写也好。鲁迅的题辞中说到:野草，根本不深，花叶不美，却有一股顽强的生命力，任何人都阻挡不了它的生长。是啊，《野草》这本书虽不厚，却可以让人联想到一大堆的东西。阅读完之后，我想找几个词来形容一下，却怎么也想不到，
2023-04-20 祝澜
祝澜1940天2023-4-20读书笔记：当家庭作业的责任明确地由孩子来承担时，才会有真正的学习。期待孩子们承担责任，而不是期待他们的父母比着他们承担责任，会造就有能力的年轻人。这并不是说父母们和老师不能帮助孩子们在家庭作业上取的成功。当着眼于帮助那些自我帮助的孩子时，每个人就都会赢。
读书笔记语馨_f389
王聪丽坚持分享第688天《非暴力沟通》真正高情商的人，会认为，发脾气是一种很好的沟通方式。我以前说过，所谓情商高，就是心中有他人；所谓情商高，不是虚伪，而是温暖。但这不是说，我们心中要没有自己，真正的情商高，是把自己当朋友，与自己和解，对自己也要温暖啊。为了幸福，必须把“别人怎么看我”这个问题放在一边。不带评论的观察是人类智慧的最高境界。学会说出自己的感受，而不是让别人猜。社会的节奏很快，人们都在
《Android进阶之光》读书笔记 soleil雪寂读书笔记 #Android进阶之光
文章目录第1章Android新特性1.1.Android5.0新特性1.2.RecyclerView1.1.4.3种Notification1.1.5.Toolbar与Palette1.1.6.Palette1.2.Android6.0新特性1.2.2.运行时权限机制1.3.Android7.0新特性第2章MaterialDesign2.2.DesignSupportLibrary常用控件详解第3
《人生海海》读书笔记墨染馨香
天地英雄客，人间寸草心。“人生海海，潮落之后是潮起，你说那是消磨、笑柄、罪过，但那就是我的英雄主义。”各位读书的时候，有没有那么一句话，突然击中了你，让你的内心秩序瞬间变得兵荒马乱、溃不成军？书确是一部好书，只是读到最后全是眼泪。人间的美与丑、人性善与恶、人生痛与泪不停地交织纠缠，心绪随着情节跌宕起伏，却又夹杂着抑制不住的伤感，久久无法平静。“上校”传奇的一生，“爷爷”无奈的一生，“父亲”沉默的一
决胜b端 | 读书笔记01-03章一白学习录
C端与B端产品的区别：B端产品经理应具备的能力：1、逻辑思维与抽象能力：基于对业务的透彻理解，把现实世界的复杂场景抽象成结构性的系统和模块，将现实世界的抽象运转机制提炼成规律。2、技术知识储备3、复杂项目管理能力4、业务与经营管理知识B端产品经理的职业发展方向：1、产品设计：B端产品经理可以从某一个细分的产品方向做起，逐步延伸到一条或多条业务线的设计。在一个方向打牢根基，同时关注新的动态，抓住机遇
《买书记历》读书笔记歪嘴文说
《买书记历》本书以作者及他身边爱书人，准确说是“爱淘书”的人，来记叙他们当年的“淘书”经历。淘旧书，缺本，古书，罕书，有价值的。类似淘古董，转手可出高价或自我珍藏。因书过厚，后部多为跳看。对其中一段记事细看了，知道还有这么一种事。一个人打作者电话说有一批书来看一下，具体数量不好说有60吨吧，作者去看后爬书堆上，看有没有珍品，结果都是杂志。问价，要5千一顿，作者当即要走，说这书卖废品也不值1千1一吨
精诚所至，金石为开 - 草稿一禾粒子
今天阅读的章节是：精益求精几天来，虽说是在分享读书笔记，实则还是在继续梳理自己。每天的学习内容，读起来，对自己都有不小的触动。我时常在感叹猫叔的剽悍！为了让我们少走弯路，把自己一路走来的足迹，展示给我们；猫叔通过大量的阅读和践行，获得了成功，又将最精华的环节推荐给我们，他选定的读本，都是针对我们前行路上会遇到的迷茫，由于他的督导，成就了后来人，使得行者事半功倍。在学习的路上，我们需要得到这些具有针
《一年顶十年》读书笔记Day2/17 设绘喵爱读书April
1-2状态如何成为一个更在状态的狠人？1.你想成为怎样的人如果你想成为强者，你现在就可以向强者靠近，并以强者的标准来要求自己，像强者一样活着。2.你应该远离哪些人总是打击你的人；见不得别人好的人；不思进取混日子的人；过度消耗你的人。3.我会常备哪些法宝读能带来力量的书；励志的电影；能带来力量的音乐；4.墙上挂字有什么用目所能及。稻盛和夫六项精进：付出不亚于任何人的努力；要谦虚，不要骄傲；要每天反省
读书笔记《焦虑自救手册》如雪般飞舞
各位好，今天我们讲一本非常实用的小书，叫作《焦虑自救手册》。昨天我见到一个朋友，他就有焦虑症。他说你们不是讲过两本关于焦虑症的书了吗，而且讲得都很好，为什么还要再讲一本？我说因为大部分读者的焦虑症还没有缓解，只要有读者的焦虑症还没有缓解，我们其实就应该继续地探索这方面的话题。为什么呢？因为这本书的作者告诉我们，对于焦虑的治疗来说，一个非常重要的原理就是不断地重复。就是我们要一而再、再而三的重复，直
《把时间当朋友》读书笔记小二王
1、养成不怕麻烦的性格，才可能拥有耐心。耐心则是在任何工作、学习上获得成功的前提。2、你比别人强一点根本没用，真正有用的是你比别人强很多很多。3、要提高自己的社交质量，最好将时间和精力更多的倾注在"把自己变得更加优秀"这件事情上——哪怕只在某一方面。4、想办法提前预知自己需要掌握哪些技能，再确定它们是自己可以通过练习真正熟练掌握的技能，而后制定长期计划，一点一点稳步执行。5、如果我们一整天都在做那
整本书阅读评价设计 zhangshoulan
一、评价设计的理论背景（一）2022新课标关于课程评价的描述：“语文课程评价包括过程性评价和终结性评价。过程性评价贯串语文学习全过程，终结性评价包括学业水平考试和过程性评价的综合结果。”“应关注整本书阅读和跨学科学习的阶段性评价，采用读书笔记、读书报告会、读书分享会等方式引导学生高质量完成整本书的阅读；可通过观察报告、实验报告、研究报告等，评价学生跨学科学习的阶段性成果。”“第一学段的评价要特别重
读书笔记|碎片化写作听雨Jack
在现代职场，总的趋势就是工作时间越来越碎片化，即使在没有微博微信的时代，我们的工作时间也早就被电话、邮件、QQ、会议打断成了碎片，而微博、微信这样的移动媒体只是加剧了这一趋势。这就需要我们利用碎片时间完成系统化工作。对于写作这件事，可以使用碎片化写作法：一份完整的文章=1分钟灵感+5分钟构思+5分钟提纲+5分钟素材+…+3分钟素材+半小时高效写作+5分钟排版+5分钟配图+1分钟推送+1分钟回复评论
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

《数学之美》-吴军 读书笔记

你可能感兴趣的:(《数学之美》-吴军 读书笔记)

《数学之美》-吴军读书笔记

你可能感兴趣的:(《数学之美》-吴军读书笔记)