风吹底裤飘

数学之美————每章小结

数学之美

书评：本书讲的是道而不是术，真正的术还要自己细致的研究下去，目前看的第一遍总结的不是很好，后面再看会继续完善。

数学之美

第1章：文字和语言VS数字和信息

1.文字和数字

2.文字和语言背后的数学

3.总结思考

第2章：自然语言处理-规则到统计

2.总结：

第3章：统计语言模型

1.最简单的统计模型：

3.训练模型：0概率（非平滑）和平滑方法：

第4章：谈谈中文分词

1.中文分词的演变：

2.分词的一致性和粒度、层次问题：

第5章：隐含马尔可夫模型

１.通信模型：

２.马尔可夫链：

３.隐含马尔可夫模型：

４.总结：

第6章：信息的度量和作用

1.信息熵

2.信息的作用：

3.互信息：

4.相对熵：

第7章：贾里尼克和现代语言处理

1.作者和贾里尼克教育观点：

2.大师都只讲哪里不要做，而不是做什么：

3.一个老实人的奇迹：

第8章简单之美布尔代数和搜索引擎

1搜索引擎三要素：

2.布尔运算：

3.索引：

第9章：图论和网络爬虫

1.两种图遍历方法：

2.网络爬虫：

3.欧拉定理：

4.网络爬虫搜索和下载方式：

第10章：pagerank—google的民主表决式网名，网页排序算法思想

1.pagerang的核心思想：

第11章：如何确定网页和查询的相关性

1.词频率：

2.去除暂停词：

3.词权重作用：

4. 词权重方法：

第12章：地图和本地搜索的最基本技术—有限状态机和动态规划

1.有限状态机：

2.动态规划：

3.有限状态传感器：

第13章：Google AK-47 的设计者——阿密特·辛格博士—寻求简单的哲学

1.简单的哲学思想：

第14章：余弦定理和新闻分类

1.新闻分类思想：

2.具体步骤：

3.优化方法

第15章：矩阵运算和文本处理中的两个分类问题

1.本章解决一个问题：

2.步骤：

3.效果：

4.计算方法：

第16章：信息指纹及其应用

1.信息指纹：

2.判断两集合相同：

3.判断两集合基本相同：

4.Youtube反盗版：

第17章：由电视剧《暗算》所想到的—密码学

1.公开密钥加密步骤：

2.总结：

第18章：闪光的不一定是金子 — 谈谈搜索引擎

1.网页作弊：

2.两种作弊方式：

3.总结：

第19章：谈谈数学模型的重要性

第20章：不要把鸡蛋放到一个篮子里—最大熵

1.最大熵原理：

2.最大熵原理指出：

3.改进的迭代算法【IIS】：

第21章：拼音输入法的数学原理

1.汉字输入法的的快慢：

2.编码速度的快慢：

3.双拼到全拼的转变：

4.主要引入的数学原理是：

第22章：自然语言处理的教父马库斯

1.马库斯：

2.柯林斯：

3.布莱尔：

第23章：布隆过滤器

1.提出前提：

2.步骤：

第24章：马尔可夫链的扩展 — 贝叶斯网络

1.贝叶斯网络：

第25章：条件随机场和句法分析

1.条件随机场：

2.条件随机场的语句浅层分析：

第26章：维特比和他的维特比算法

1.维特比算法的提出：

2.维特比算法详解：

第27章：再谈文本自动分类问题 — 期望最大化

1.文本自动收敛分类：

2.期望最大化和收敛必然性：

第28章：逻辑回归和搜索广告

1.网站广告问题：

2.逻辑回归模型：

第29章：各个击破算法和google 云计算的基础

1.分治法：

2.从分治法到MapReduce:

第1章：文字和语言VS数字和信息

1.文字和数字

讲了一堆古代文字，其实就是为了引出下面两个概念用于翻译

1.信息的冗余是安全保障

2.古代语料的多样性（一个句子或者词多种写法）对翻译很有用

2.文字和语言背后的数学

1.古代人讲话宽信道，而传竹筒是窄信道，所以我们古时候就有压缩这个思想啦

2.圣经有90-100W字，犹太人很认真，但是还是会错误，所以出现校验码的思想（每个字都是一个数字，每行内相加都是一个固定值，能查出改行是否出错）

3.语言中的语法肯定会有人不精确，这个无法避免，最后实践表明，我们要从语言出发，而不是语法，因为语法我很难完全遵守

3.总结思考

1.通信原理

2.最短编码（哈夫曼）,编码(文字和数字其实就是一种不同的编码)

3.解码规则、语法

4.聚类（相类的东西聚集在一起，类似K-means）

5.校验（检测信息错误）

6.语义，语料，双语对照，机器翻译

7.利用上下句和多意性消除歧义

以上就是结合故事说明的与数学相关的规律啦

第2章：自然语言处理-规则到统计

回答了2个问题：计算机可以处理自然语言，且方法可以做到与人一样，所以有研究下去的意义。

机器智能

1避免误区：机器不可能做到人脑那样学习语言，而是要通过数学模型和统计方法的实现的。

2.两个路线：语法分析和语义分析，英文通常语法分析，而中文以前通常是语义分析

3.机器分析句子：

1）普通的，主谓宾直接分，很简单

2）复杂的，可能主谓宾宾补，或者主语有同位语，普通机器根本没法分析，因为规则太多，就算规则都已经完备，但是目前计算机也计算不过来呀，所以完全语义规则分析不可行，需要过渡到结合下面的统计

4.规则到统计：语言机器很难用规则来翻译而是依赖于上下文，甚至常识，渐渐的过度到利用统计翻译机器语言（所以要打破常规，不要固执于一个思想，就像文章里面的老科学家的固执，表现出作者想在意识清晰（固执）之前退休）。

2.总结：

自然语言的发展，从语法语义过度到现在的统计，不要墨守成规。

第3章：统计语言模型

1.最简单的统计模型：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

这样的方式在计算上比较麻烦，而有了一个较为偷懒的假设“马尔科夫假设”，假设后一个词的出现只与前一个词相关，公式的形状如下：

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)

最终是 P(wi | wi-1) = P(wi-1,wi)/P(wi-1)

这种假设的局限性在于：“在自然语言中，上下文之间的相关性跨度可能很大，甚至可以从一个段落跨到另一个段落。因此即便再怎么提高模型的阶数，对这种情况也无可奈何.”

2.解决跨度：

目前最高的是google的4元模型，上面是相邻的两个相关词，跨度为1，如果是跨度为2,3时即为3、4元模型，P(wi |w1，w2，········……… wi-1) = P(wi | wi-n+1，wi-n+2, ……….,wi-1)

3.训练模型：0概率（非平滑）和平滑方法：

1.使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练。

2.一般来说P(wi | wi-1)是有可能出现0和1概率的，而且很多时候不合理，增加数据量（大数定理就完全能解决，但是不可能完全的大数）虽然可以避免大多数这些情况，但是还是会出现，所以需要解决。这里使用了古德图灵估计的方法，把未看见事件分配一个不为0的概率从而使整体概率平。

第4章：谈谈中文分词

1.中文分词的演变：

一开始是以字典法进行分词，但是二义性太大啦，渐渐的也由规则演变成基于统计的分词方法，而且实践中他也非常有效。（动态规划和维特比算法），需要注意的是，在不同应用中需要用到不同的分词器

2.分词的一致性和粒度、层次问题：

不同的人分词粒度是不同的，比如北京大学，有些人可能会分为北京-大学，而有些人直接理解为一整个词，这就是分词粒度，和一致性的问题，所以对于不同层次的次，我们需要挖掘出更多的复合词，从而完善复合词词典。

第5章：隐含马尔可夫模型

１.通信模型：

语言输入（ｓ１，ｓ２，ｓ３……ｓｎ）编码―――》语言输出（ｏ１，ｏ２，ｏ３……ｏｎ）解码

２.马尔可夫链：

天气状态可假设为ｍ１，ｍ２，ｍ３，ｍ４之间的转换

可以用概率来统计，比如有很多天的天气预报，我们知道ｍ２天为ｊ次，ｍ３天为ｋ次，以此类推，最后他们的比值除以总数就是他们的状态改变概率（其中每个状态只和前面一个有关）。

３.隐含马尔可夫模型：

是马尔可夫的一个拓展，我们根据前面的语音输入ｓ１，ｓ２，ｓ３……ｓｎ――》输出ｏ１，ｏ２，ｏ３……ｏｎ，其中ｓ１，ｓ２，ｓ３……ｓｎ的概率值我们是能计算的出来的，而ｏ１，ｏ２，ｏ３……ｏｎ，我们没法得知，他是一个不可见的状态，但是我们大概知道一个每个时刻的ｓｔ会输出特定的ｏｔ，也就是说他们之间有一个特定的函数，从而我们可以推导出ｏｔ的大概输出。

所以通信的解码可以利用隐含马尔可夫模型来解决，完全没想到可以这样做·······…太牛了！

４.总结：

需要２种算法：训练算法（鲍姆－韦尔奇算法），解码算法（维特比算法）之后才能使用隐含马可夫模型这个工具

第6章：信息的度量和作用

1.信息熵

，也就是，单位为比特。

2.信息的作用：

信息的作用是用于消除不确定性，自然语言处理的最大问题就是为了找到相关信息，比如我们根据前面章节可知一元模型，直接找信息，二元模型是根据上下文来找信息，所以可以把1的公式改为其中x在y的条件下得到的信息概率。

3.互信息：

书里有个句子，就是bush到底是总统还是灌木丛，这种二义性的问题很难用语法和规则等方法解决，但是根据上下文，如出现美国，华盛顿等字样就可以知道他是总统啦，如果是土壤，植物就可以证明他是灌木丛的意思，这就是互信息的作用，其中信息的条件熵差异为：，X,Y完全相关时取值为1，无关时为0

4.相对熵：

第7章：贾里尼克和现代语言处理

1.作者和贾里尼克教育观点：

学习不一定要学的早，晚点学也一样，因为错过了成长的乐趣反而更加不好，作者举例了一个中学学500小时，大学只需要100小时就能学完的例子（这里非常赞同）。

2.大师都只讲哪里不要做，而不是做什么：

这里跟第22章的布莱尔的想法很像，就是能根据已经有的经验快速否定掉一种不太可能的方案，防止别人走进岔路。

3.一个老实人的奇迹：

说了贾里尼克做了很多大事，同时主要讲到他是个很严格的人，作者可能认为他这样会经常得罪人，然而事实并非如此，所以作者下结论他是个公正的人，尽管他很严厉。

第8章简单之美布尔代数和搜索引擎

1搜索引擎三要素：

自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序，其中主要讲索引

2.布尔运算：

比如搜索一篇文章为原子能而不要应用这个词的文章，先第一次全网搜索有原子能的文章比如10101010111100000····，1为出现，0为未出现，这个二进制串非常长，然后在同样找没有应用关键字的文章如10101111110000000···，然后在把上面两个进行布尔运算，最后就是结果啦。

3.索引：

根据上面的布尔，的前提就是要每个网页都有关键字的索引，否则会非常慢，同时就算有每个网页都有关键字索引，那这个索引表也会非常大，并且索引表的附加信息也会非常多，所以根据索引和布尔运算得到需要的结果就需要分布式来运算解决。

第9章：图论和网络爬虫

1.两种图遍历方法：

DFS，BFS

2.网络爬虫：

其实就是根据上面的这两种遍历方法，遍历网页，并下载，但是这种下载量非常大，需要分布式进行操作

3.欧拉定理：

如果一个图从顶点出发，每条边不重复的遍历一遍回到这个顶点，那么需要每个顶点的度一定为偶数

4.网络爬虫搜索和下载方式：

网络爬虫一般BFS优于DFS，因为我们一般首选需要各个网站的首页，再要其其他页面，所以先广度搜索尽可能多的不同类型页面，再把页面进行广度搜索，当然不是简单的广度搜索，其次是下载方式，因为下载和搜索是分离的两个服务器，为了避免多次握手，所以先把一个下载完再下载另一个，而不是向电路交换一样一部分一部分的下载，这时就需要一个调度系统管理下载的调度问题。

第10章：pagerank—google的民主表决式网名，网页排序算法思想

1.pagerang的核心思想：

民主表决，其实就是如果一个网页被其他很多网页超链接，那么他普遍被承认和信赖，所以他的排名就高。同时还要分权处理，来自排名高的网页链接权重应该加大，但是这样的话想知道权重又得知道他们的排名（相当于先有鸡还是先有蛋问题），文章讲到用了二维矩阵相乘的思想，一开始权重都相同，计算一轮后再迭代一轮，得出二次排名即为可靠的，由于矩阵计算量非常大，他们使用了稀疏矩阵来解决，具体看书的延展阅读。

第11章：如何确定网页和查询的相关性

1.词频率：

如搜索“原子能的应用”在某一个1000词的网页中出现2、35、5次，那么词频率分别为0.002、0.035、0.005，相加就是总的词频率

2.去除暂停词：

一般来说，上面的“的”次出现次数高，且没什么意义，一般都不考虑这些词，即他的词权重为0

3.词权重作用：

上面的“原子能的应用”，我们看到原子能才是他的中心词，而应用这个词很泛，所以应该给他不同的权重

4. 词权重方法：

词权重一般使用“逆文本频率指数”即log(D/Dw)，其中D为所有网页数，Dw为命中网页数，带入公式后就是这个词所占的权重，然后词频率和权重交叉相乘后相加就能得到想要对应的TF-IDF值啦。

第12章：地图和本地搜索的最基本技术—有限状态机和动态规划

1.有限状态机：

从开始状态到终止状态，每个状态的转变都严格匹配，否则不匹配，

由于自然语言比较随意，很难完全做到准确匹配，这时就要引入基于概率的有限状态机了，就跟马尔可夫模型一样。

2.动态规划：

1.划分子问题2.确定动态规划函数3.计算后填入表格4.重复操作

3.有限状态传感器：

WFST模型他就是在有限状态机下加入不同的概率走势，也就是说他跟我们之前学的二元模型是类似的，每一个二元模型都能用有限状态传感器描述。

第13章：Google AK-47 的设计者——阿密特·辛格博士—寻求简单的哲学

1.简单的哲学思想：

做事可以简单解决就先解决，不一定完全的追寻效益问题，就比如文章所说的，作者写了个中文搜索算法，虽然速度快，但是消耗内存大，辛格博士他建议用拟合函数代替训练模型，但是效率会降低很多，作者一开始不赞同，但是他还是这么做了，最后证明出先简单解决问题，提供给用户使用，后面再继续优化才是最好的，而不应该一开始就急于求成，做到最好那种。

第14章：余弦定理和新闻分类

1.新闻分类思想：

使用了前面的TF-IDF思想，确定新闻间的相关性，然后进行分类

2.具体步骤：

1）我们对于一个词表比如有64000个词，进行编号。

2）某一篇文章进行TF-IDF值计算（方法看第11章）

3）重复上面步奏，把其他文章进行运算计算其TF-IDF值，封装成向量。

4）把上面的文章两两进行余弦运算：

因为我们知道每个文本的词数量不一样，可能有的10000词，有的100词，直接对比TF值是不合理的，因为对应的向量长度不一，但是他们的方向是可能一致的，所以只需要计算其两个向量的夹角就可以知道两篇新闻是否相类似了。

5）分类，根据字典一样把某一新闻归类到某一处，直接余弦相似度运算即可分类了

但是有一个问题，就是怎么知道有多少个类别呢？

手动写，麻烦，容易错误
自动生成：自底向上不断合并

3.优化方法

1.可以先把每个文章的词频率计算好来封存，两两余弦计算时直接提取即可

2.余弦内积时，由于大量的元素为0，所以我们只要计算非零元素。

3.删除虚词的计算，比如‘的’、‘地’，这些词一般数量非0但是又是一种无用的干扰项，同时还会影响权重，所以去除后计算会更合理更快

4.补充：位置加权，比如文章开头和结尾的权重应该高一些，也就是文章开头和结尾的词权重可以提高后再计算，类似TF-IDF模型。

第15章：矩阵运算和文本处理中的两个分类问题

1.本章解决一个问题：

如果使用第十四章中引入的向量距离的方法，对数以亿计的网页进行距离计算，计算量过于巨大，而引入了矩阵的运算来计算新闻之间的相似性，一次性把多个新闻的相似性计算出来。利用了矩阵运算中的奇异值分解。（有没有联想到《线性代数》中矩阵之间向量的线性相关的运算？）

这种方式，将多个新闻的向量组成的矩阵分解为三个小矩阵相乘，使得计算存储量和计算量小了三个数量级以上。

2.步骤：

1）有n个词，M篇文章，形成M*N矩阵，其中aij代表第j个词在第i篇文章（行词列文章）出现的加权词频（比如TF-IDF值）

2）奇异值分解，把上面的A大矩阵转化为3个小矩阵相乘

其中，比如X矩阵中每行代表一个词(行)在词类（列）（语义相近的词类）的相关性

Y矩阵中每列对应一个文本，每行代表一个主题，即每一个主题（行）在文本（列）的相关性

B矩阵中即为每个词类（行）对应的主题（列）相关性。

3.效果：

只要对新闻关联性矩阵进行一次奇异值分解，既可同时完成近义词分类和文章的分类。

4.计算方法：

庞大的网页量，使得计算量非常大，因此需要很多的计算机并行处理。

第16章：信息指纹及其应用

1.信息指纹：

能唯一代替某一网络信息，比如之前的网页hash表存网址太浪费内存啦，直接用伪随机数代替该表中的地址能节省很多内存空间。同时网络传输也需要加密，比如MD5不能逆向破解就是一个很好的加密方式。

2.判断两集合相同：

1）一一比较，O（N2），太慢

2）两个集合先排序，再一一比较O（logN），相对慢

3）先把一个集合放到hash表，再一一比较O（N）快，但是消耗多了N个内存

4）直接用信息指纹，把每个集合内的元素都相加再比较即可（不需要排序就可以比较）

3.判断两集合基本相同：

1）比如用两个账号发送垃圾邮件，邮件大体相同，个别不同，所以我们可以抽取比如发送尾号为24的邮件，然后再用信息指纹的第四种方法就好啦（基本能鉴别出来）。

2）网页或者文章对比，可以先用IDF方法鉴别词频率（去除掉只出现一次或者少次的噪音词），然后再抽取关键字进行信息指纹识别就好啦，如果是文章的话把文章切成一小段一小段的，然后一样IDF方法选取特征词进行信息指纹鉴别即可。

4.Youtube反盗版：

他其实就是拿去视频的关键帧进行信息指纹对比，从而判断出哪些是盗版的，同时把广告收益给商家，而盗版的没收益，所以盗版的就少啦。

第17章：由电视剧《暗算》所想到的—密码学

1.公开密钥加密步骤：

1）随便选一个密码转为3位的ASCII码数字

2）加密：

1.找2个很大的数P、Q然后计算N=P×Q M=（P-1）×（Q-1）

2..找一个和M互素的整数E，即M和E除了1没有公约数

3.找一个整数D，使得(E×D)%M==1

加密成功后D就是私钥（解密），E是公钥（加密），N是公开的

2.总结：

信息论虽然能让我们知道信息越多，就能消除更多的不确定性从而解密，但是密码学就是让我们无论知道多少信息，都无法消除不确定因素从而解密

第18章：闪光的不一定是金子 — 谈谈搜索引擎

1.网页作弊：

就是根据搜索引擎的算法，得到更高的网站排名

2.两种作弊方式：

作弊1：比如可以提高网站相关词频数，然后隐蔽，这样就能得到较高的TF-IDF值啦，

解决1：对异常高的网页做一下分析就可以，比较简单

作弊2：出卖网站的出链接，由于我们前面章节知道网站被越多其他网站引用就会得到越高的排名

解决2：出链的网站到其他网站数目可以作为一个向量，也是这个网站固有的特征，既然是向量，就可以用余弦定理计算相似度，有些网站出链量相似度几乎为1,此时就是可以知道这些是卖链接的网站啦。

3.总结：

提高网站质量才是关键。

第19章：谈谈数学模型的重要性

一个正确的数学模型应当在形式上是简单的。（托勒密的模型显然太复杂。）
一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确，但是如果我们认定大方向是对的，就应该坚持下去。（日心说开始并没有地心说准确。）
大量准确的数据对研发很重要。
正确的模型也可能受噪音干扰，而显得不准确；这时我们不应该用一种凑合的修正方法来弥补它，而是要找到噪音的根源，这也许能通往重大发现

第20章：不要把鸡蛋放到一个篮子里—最大熵

1.最大熵原理：

说白了，就是要保留全部的不确定性，将风险降到最小。

“不要把鸡蛋放在一个篮子里，是最大熵原理的一种朴素说法。”

2.最大熵原理指出：

当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。（不做主观假设这点很重要。）

最大熵模型存在的【证明】：匈牙利著名数学家、信息论最高奖香农奖得主希萨（Csiszar）证明，对任何一组【不自相矛盾】的信息，这个最大熵模型不仅存在，而且是唯一的。而且它们都有同一个非常简单的形式 -- 指数函数。
书提到的最大熵原理【应用】：
- 拼音和汉字的转换：1.根据语言模型：wang-xiao-bo 可以转换为：王小波和王晓波两种情况。2.根据主题，王小波是作家《黄金时代》的作者，而王晓波是研究两岸关系的学者。根据这两种信息创建一个最大熵模型

最大熵模型应用于信息处理优势的第一次验证：

应用最大熵原理，创建了当时世界上最好的词性标识系统和句法分析器。其做法即为使用最大熵模型成功的将上下文信息、词性、名词、动词、形容词等句子成分、主谓宾统一了起来。

- 2000年以后，句法分析、语言模型和机器翻译，都开始使用最大熵模型。
- 对冲基金使用最大熵。
  孪生兄弟的达拉皮垂他们在九十年代初贾里尼克离开 IBM 后，也退出了学术界，而到在金融界大显身手。他们两人和很多 IBM 语音识别的同事一同到了一家当时还不大，但现在是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)。我们知道，决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。达拉皮垂兄弟等科学家在那里，用于最大熵模型和其他一些先进的数学工具对股票预测，获得了巨大的成功。

来源： http://www.cnblogs.com/KevinYang/archive/2009/02/01/1381798.html

最大熵模型的【训练】：
1. 计算量庞大的【GIS】：GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。
  GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。

3.改进的迭代算法【IIS】：

八十年代，孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。

4.吴军的改改进和他的论文：（链接在此）
发现一种数学变换，可以将大部分最大熵模型的训练时间在 IIS 的基础上减少两个数量级

第21章：拼音输入法的数学原理

1.汉字输入法的的快慢：

由击键次数乘以寻找这个键所需要的时间

2.编码速度的快慢：

由拼音编码和消除歧义性编码（数字键盘）快慢决定

3.双拼到全拼的转变：

前面双拼他虽然减少了击键次数，但是别人消除歧义以及击键的思考的时间都变长了，不利于学习以及速度总体慢，后来出现了全拼（也就是我们现在所用的拼音输入），虽然击键次数变多了，但是学习成本和思考成本降低，同时容错率也提高了，所以速度很快

4.主要引入的数学原理是：

中文输入法的击键次数的数学原理
【香农第一定理】指出：对于一个信息，任何【编码长度】都不小于它的【信息熵】。因此，上面的平均编码长度的最小值就是汉字的信息熵，任何输入法不能突破信息熵给定的极限。
【汉字信息熵的计算】在GB2312中一共有6700左右个常用汉字。
a. 假定每个汉字出现的相对频率为：
b. 编码长度
c. 平均编码长度：
d. 得出汉字的信息熵：不考虑上下文的关系，信息熵的大小大约为【10bit】
e. 单个字母代表的信息熵：假定输入法只能要我26个字母来输入，那么每个字母可以代表log26 = 4.7 比特的信息，也就是说，一个汉字的输入，平均需要10/4.7 约为2.1 次击键。
f.组成词后信息熵减少：如果把汉字组成词组，再以词为单位统计信息熵，那么每个汉字的平均信息熵就会减少。如果不考虑上下文关系，汉字的信息熵大约是8bit，以词为单位每个汉字平均只需要8/4.7 = 1.7次击键
g. 考虑上下文信息信息熵进一步减少：如果考虑上下文关系对汉语建立一个基于词的统计语言模型，可以将汉字的信息熵降低到6bit左右。此时平均需要的击键次数约为：6/4.7 1.3次击键。如果一种输入法能够做到这一点那么汉字的输入就比英文快多了。（我觉得手机的9宫格汉字输入法挺给力的。）
【全拼输入法的信息熵】汉语全拼平均长度为2.98，只要基于上下文能彻底就解决一音多字的问题，平均每个汉字的输入应该在3个键以内。可以实现汉字拼音输入一部分后提示出相应的汉字。
如何利用上下文呢？

思考总结：现在的输入法需要提升就是看谁能建立更好的语言模型以及转成汉字的算法。

拼音转汉字的动态规划算法：

【输入法做的事情】是：按照输入的序列，查找该条件下的句子。
图中 y 代表输入的拼音字符串，w代表输出候选汉字。每一个句子和途中的一条路径对应。
拼音输入法的问题，变成了一个寻找最优路径的问题。
【最优路径】和计算城市间的最优路径不同，其中的距离是实际上的一个点到另一个点的距离，而在拼音输入法的路径中，两个候选词之间的距离是w伸向下一级w的概率。

实际上输入法作出的计算是这样，输入一串拼音字母字符，软件通过模型计算出与词拼音对应的出现概率最大的汉字候选结果。

3.训练一个用户特定模型：

大多数情况下M1,模型会比M0模型要好，但是如果输入偏僻字的时候反而M0模型比较好，

根据最大熵定理，我们都要把各种情况综合在一起才是最好的，同时这个模型训练时间也

比较长，所以下面引出了线性插入模型：

第22章：自然语言处理的教父马库斯

1.马库斯：

1）他第一个考虑到了语料库的重要性，也第一个做出了很多LDC语料库

2）他不限制学生方向，而是根据独特的眼光给予支持

2.柯林斯：

数学之美一书都是讲简单为主，但是柯林斯却是个特例，他不是为了一个理论而研究，而是为了做到极致，比如他做的文法分析器。

3.布莱尔：

跟作者一样，都是以简单为美，虽然不能立刻知道某事该怎么做，但是能立刻否定掉一种不可能的方案，从而寻求简单的方法。代表算法：基于变换规则的机器学习算法：

第23章：布隆过滤器

1.提出前提：

之前我们讲过垃圾邮件的识别，从一一对应到hash，这两种都不是很好，所以后来作者推荐用了信息指纹这个东西，也就是一个伪随机数，其中这个随机数是否出现过就需要用到布隆过滤器啦

2.步骤：

先建立一个16E位的二进制数组，全部置为0，对每一个邮件用随机数生成器（F1，F2，F3```F8）生成8位不同的信息指纹（f1，f2,·······…f8），然后把这8位随机数全部置为1后映射到刚才的16E位数去，当第二次又有同一个邮件时以同样的方式映射会发现映射的位置都置为1了，此时就可以判断该邮件出现过啦

但是该模型有一定的缺陷，虽然很小的概率会识别错误，但是还是有可能识别错误的，此时可以建立一个白名单来解决

第24章：马尔可夫链的扩展 — 贝叶斯网络

1.贝叶斯网络：

假定马尔可夫链成立，也就是说每个状态和和他直接相连的状态有关，和间接状态没有关系，那么他就是贝叶斯网络，同时图中的弧可以有权重，其中A到C可能不是直接相关，但是不代表他没没有关系，他们可能可以由一个间接状态来关联，比如B

具体内容他就是利用贝叶斯公式计算出每一个状态到另外一个状态转移的概率，具体可以看书本有个例子，不过需要一点概率基础，贝叶斯网络其实就是马尔可夫链的一个拓展，看似简单，但是实现起来非常复杂。

第25章：条件随机场和句法分析

1.条件随机场：

他其实是一个隐含马尔可夫的拓展，我们假定x1、x2、x3为观测值，y1、y2、y3表示隐含的序列，其中x2的状态由y2的状态决定，和y1、y3无关，但是实际中他们很有可能是有关的，如果把y1、y2、y3都考虑进来，那么他就是一个条件随机场啦，其中条件随机场还是遵循隐含马尔可夫链的原则的，比如y1、y2、y3还是一个马尔可夫链，x1和y1之间的关系是一个概率关系，跟前面一样。其中他与贝叶斯网络的区别是条件随机场是一个无向图，而贝叶斯是个有向图

2.条件随机场的语句浅层分析：

这里看的不是太懂，后续看懂了再更新

第26章：维特比和他的维特比算法

1.维特比算法的提出：

我们知道最短路径是由动态规划解决的，而篱笆网络有向图的最短路径则是由维特比算法来解决的，所以隐含马尔可夫算法里面的解码都可以用它来解决。

2.维特比算法详解：

这个算法的好处就在于把运算的复杂度从10^16降到了O(N*D²）(D宽度（列），N网长度（行）)10^3,降低了非常多。

第27章：再谈文本自动分类问题 — 期望最大化

1.文本自动收敛分类：

假如有N个文本对应N个向量V1、V2……Vn，希望把他分到K个类中，这K个类的中心是C1、C2………Ck，分类步骤如下：

这样重复下去就可以自动分类啦。

2.期望最大化和收敛必然性：

如果距离函数设计的好，那么d（各个文本向量到类中心平均距离）更小，而D（各个类中心的距离）更大，即从而多次迭代后得到最优分类。

在机器学习中，这D和d可以分为2个过程：

其中根据现有模型计算结果为期望（E），通过模型多次计算（多次训练）最大化期望（M）,所以叫做EM算法。

第28章：逻辑回归和搜索广告

1.网站广告问题：

百度和雅虎就不说了，谁出钱多就谁的广告在前面，这里说google的广告竞争问题，一开始作者提出可以由用户搜索数，和广告点击数的比率来看该广告是否合理：

但实际上并不那么简单，1，新广告没数据，不合理2，很有可能数据不足，比如只有各广告只被查询过一次，不能说点击过3就比2次的广告好。3，放在第一位的广告明显比第二位的好，排名自然高。

2.逻辑回归模型：

其中里面的

Xi为影响变量，比如广告展现位置，展现时间等等

Βi为为一个特殊的参数由人工神经网络训练未来的参数

第29章：各个击破算法和google 云计算的基础

1.分治法：

把一个大问题分解成若干个小问题，解决各个小问题，合并各小问题的解

2.从分治法到MapReduce:

文章先引入了归并排序的思想，其实就是分治法的思想，把一个待排序的数组进行分割后排序，然后排序后再合并就完成了，然后开始讲解一个大矩阵的相乘，比如：

，如果A和B非常大时，一个计算机是计算不下来的，所以引出了云计算（分治法，MapReduce）的思想，先把A按行分割成N/10份，把B按列分成N/10份，然后两两相乘

最后两两相乘就能得到各自的解，然后合并解即可，这就是把一个把问题分解到多个服务器上计算，从而节省了很多时间的方法。

你可能感兴趣的:(书籍)

向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
2023-4-6晨间日记百里清风柏年醉
今天是什么日子起床：7:00就寝：10:30天气：阳光明媚心情：沉闷，忧心忡忡纪念日：无任务清单昨日完成的任务，最重要的三件事：看咨询工程师的书锻炼身体记75个单词改进：自己做饭习惯养成：看纸质书籍不刷抖音每天日更周目标·完成进度学习·信息·阅读健康·饮食·锻炼人际·家人·朋友保持与朋友交流，多认识、结交新的朋友工作·思考怎么做好向上管理该学习什么新的技能怎么与同事更好相处，更好地开展工作最美好的
新月|图卡5-8《心》一切始于心，终于心新月_f578
大家好，我是坚持做图卡，不断精进的新月，近期阅读书籍《心。》，持续输出图卡……截止目前已经读完本书，输出卡片9张~借助9张卡片，回顾本书的整体内容，结构上可以分为：始于心-修心-终于心。首先明确：我们为什么要这么做？其次懂得如何去做，落实到具体的方式方法上，就是修心的过程。最后是知道目标在哪，不断自我提升，向目标靠进，使修心贯穿始终。
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
《蛤蟆先生去看心理医生》读后感我是八零后
《蛤蟆先生去看心理医生》，听书名像是童书，其实是一本专业心理学书籍，一本可以给成年人带来的心灵疗愈的书。走进书本，我们一起跟着蛤蟆先生跟随心理医生的咨询，探寻情绪的根源，进行自我突破，完成个人状态的转变，实现自我的疗愈。一、刷重点1个前提。改变的唯一前提是认识你自己，在这个世界上能帮你的人，只有你自己。2个思维。人人在理性与感性之间徘徊。真正厉害的人，是理性与感性并存。3个状态。每个人都有儿童、父
家庭教育，先家庭后教育：家庭是硬件，教育是软件唯唯育家
很多家长为孩子付出很多，也学习很多家庭教育课程，看很多家庭教育书籍，为什么还是教育孩子很困难？因为主次颠倒，没有抓住家庭教育的主干！家庭教育，很多家长只行使“教育”功能，忽视了“家庭”功能！家长总想着怎么教孩子，怎么教育孩子！如果单靠教育，就能把孩子教好，学校老师在教育方面比家长在行，孩子应该在学校就被教好了，哪还需要家庭教育？为什么只有学校教育不够，还需要家庭教育？家庭教育的主要功能不在“教育”
这样共读一本书 eggplant
2021年10月6日星期三本期学校阳光管理轮训共读刘铁芳教授的《以教学打开生命——个体成人的教学哲学阐释》，这是继共读刘教授《什么是好的教育》之后的第二本书籍，这两本书籍都是有关教育的哲学书籍，应该说，《以教学打开生命——个体成人的教学哲学阐释》是《什么是好的教育》的延伸、丰富与升华，理论性更强，哲学意味更浓，对于一线教师来说，接触哲学类的书籍较少，在阅读上有些内容的理解有难度，但是，有难度才更值
90天读书分享76——家为什么会伤人韧2018
图片发自App今天分享的书籍是《家为什么会伤人》，作者是武志红，著名的心理学家，畅销书作家。本书是讲述中国家庭的文化的一些缺陷造成的种种不良后果，我将分享书中家庭和婚姻中的误区和正确的做法。由于我们在家庭和婚姻中没有采取正确做法，走入了误区，会给婚姻和家庭带来巨大的伤害，而且这种伤害会可能会对子女造成影响，会不断延续下去，造成悲剧的反复发生。现在来看看婚姻中存在误区：第一个误区是不以夫妻关系为家庭
每日一书|《亲密关系》(Day5) 采臣在等我
采臣在等我-广州【书籍名称】《亲密关系》图片发自App【阅读目标】1.了解“亲密关系”的几个阶段及特点2.认识和理解有效沟通的技巧和原则3.思考自己在亲密关系建立中的角色和心理，以及面临的挑战【阅读感受】这本书是克里斯多福研究亲密关系的智慧结晶，阅读的整体感受是:书中文字亲切，有种娓娓道来的感觉。书中的逻辑感较强，也有详细的小结和应用建议，适合应用和反思。1.亲密关系的4个阶段和特点阶段一:月晕A
谈哲学本仙老四
我是谁？从哪里来？要到哪里去？最近看了些西方哲学类书籍，忽然就有了这些哲学式的思考。世界真的如我们所看到的这样吗？还是只是我们觉得它是这样？或者它根本就不存在。哲学书是引发人思考的好书籍，即使你觉得读起来枯燥无味也要坚持阅读，之后你会发现受益无穷。大家都说哲学起源于西方，文艺复兴时期的哲学对欧洲的发展起到了重要作用。其实早在中国古代就有一批哲人出现，老子、庄子、孟子、孔子……他们的思想各有独到之处
新媒体运营小白，有哪些书籍可以推荐？ y耳朵
为了转行运营，我曾花了3个月的时间，看了不下百本书，可以说市面上大部分跟运营有关的书籍，我都看过了，因此关于书的推荐也有一些自己的小见解。看书不一定要多，但一定要****精，我根据豆瓣评分、推荐热度和自己的转行经历，挑出了13本值得运营小白看的书，收藏好这份书单，不需要你浪费时间去找书了。先看下统计好的书单：整理不易，看完记得点个赞哦！感谢你的支持。入门篇：1.《运营之光》（豆瓣评分：8.0)推荐
跟剽悍一只猫学习收获之成为领域专家财务自由的社群运营人苏宝
001找到这个领域内权威的书籍。002按照书的脉络（章节目录）记录书中的重要内容（对自己认知系统造成冲击的，以前没有学过的，觉得有用的，暂时还不太理解的）记录下来。003读完第一遍以后，接着读第二遍。这一遍记录书里对你有用的方法论，并尝试依据这些方法论实战。004再读一遍，这一遍记录尝试梳理整个书的认知框架和内在逻辑。005之后，可以多朗读几遍全书。你会发现，你对这些知识的理解会越来越全面，越有深
钟汉良日记：自媒体写作要向古代拜师学艺的人取经钟汉良日记
2022年9月8日周四晴朗的天前几天晚上，和实操班的学员谈了很多为什么要写日记的原因。前后两个多小时，推荐了好几本书，隔了一天再回忆竟然不能把所有的书籍都列出来。是自己年龄大了，记忆力衰退了？我觉得不是。而是谈话这种氛围，比起文字写作更容易激发我们的潜能。一些灵光乍现的想法，会在那种特别融洽的时候突然涌现出来。有的想法和总结，你平时就是绞尽脑汁也想不出来，但就是在那种你侃侃而谈的时候，思想会像流水
心情不好时，去做这四件事绿茵下
01读书当一个人的智慧不够时，最容易胡思乱想，将自己困住思维的牢笼里。想要开悟，首先要与智者对话，与高人同行，那么与智者对话最经济实惠的方式，莫过于读书了。于时光的静美中，手捧一本高质量的书籍，在书中窥见先贤们的所思所想，仿佛进入了一个平静的世界，让人思绪越来越清晰明了。或许读书不能够马上帮你解决眼前的难题，可日复一日地坚持下去，总能让你内心更加笃定，心灵更加沉静，生出智慧之花。在书中人物不同的经
数据结构 1 五花肉村长数据结构算法开发语言 c语言 visualstudio
1.什么是数据结构数据结构（DataStructure）是计算机存储和组织数据的方式，是指相互之间存在的一种或多种特定关系的数据元的集合。2.什么是算法算法（Algorithm）就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。3.数据结构和算法的书籍资料学习完数据结构知识，可以去看《剑指offer》和《
小故事：森林书生 zero川
1文生是一个生活在森林里的书生，他在那里有一个小树屋，屋子里放满了各种书籍。文生住所这里离乡镇闹市有30多公里远，所以平时很少会去市面上跟别人产生任何交集。文生大多数生活时间都是以书为伴、以野外万物为伴…文生靠采摘蘑菇、野菜野果维持生计，由于天性善良，所以不曾捕猎。森林里的动物也因此跟文生特别交好，经常会来文生住所调皮捣蛋。
重新挑战日更荣清
写作这件事情一直困扰着我，我以前很讨厌写作，尤其是写考试作文，每次读到作文题目，一脸懵逼，需要绞尽脑汁去思考怎样才能凑足800字。喜欢上写作，是因为这些年来读了不少的杂志、小说、历史书籍、哲学书籍、专业书籍等等。对我印象最深的当属小说了，尤其是网络小说，通俗易懂，画面感很强，顺着作者的思路可以在脑海中构建一幅完整的画面。从那时起，我心里边就有一个写作梦。梦想者带着自己手上的笔记本电脑或者华为平板电
《流浪地球》：当太阳将要死去，让我们带着地球去流浪逝去的往昔
春节假期，看了两场电影，今天的《流浪地球》看得震撼至极。影片改编于刘慈欣的同名小说，观影之前特意在微信读书上阅读完了那个短篇。图片发自App我对科幻其实是无感的。拗不过孩子们的期盼，还是跟他们一起去了影院。看完之后才知道自己是多么浅薄。电影的效果跟书籍是无法相比的。看完书已经折服于大刘的想象力了，看完电影更加感叹导演的尽心竭力，正如预告片中所言，郭帆与他的队友在四年的时间里，将影片做到了最优化。试
俄罗斯双城游记2——涅瓦河畔的漫步 NostalgiaFe
冬宫的奢靡的确是让我瞠目结舌，无法想象曾经的沙皇贵族过着多么纸醉金迷的生活，但是，当这电视上、媒体上出现过无数次的绿色宫殿开始直接冲击我的视野的时候，我心中竟然涌现出一股莫名的陌生感。毕竟，自己亲眼看见，才能够真正体会到每一个细节带来的心灵的涤荡。最为直击心灵的，想必是那个书房了吧，一见钟情的感觉，就是这样。我第一眼看到这个书房，我就想将来在自己的家中，复刻出来，让自己拥有一个自己的书籍的宫殿，自
150感恩于心宁博Villa
这一年多来我遇到了许许多多对我有帮助的人，他们的出现，像一盏灯，点亮了我的生活，驱逐了我的迷茫，带我走出了困惑，带我走出了纷争喧扰的生活。今天是ThanksgivingDay，在这个特殊的节日里，我想在这里写下我对他们的感激。去年的8月，闲来无事，我在书店里游荡，突然一本橘黄色的书籍映入眼帘，我随手拿起翻阅，《让未来现在就来》几个大字赫然地映入了我的瞳孔，好奇心强烈地驱使着我一探究竟，“未来怎么可
远离导致贫穷的习惯小强聊成长
书籍：富有的习惯01.投机追求不劳而获的人，及时获得了一时的运气，长期来看，还是会陷入贫穷状态。那些长期买彩票的都是没钱的人。02.过度饮酒醉酒会影响脑细胞中神经传导接收器的工作，长期过度饮酒，会导致反应迟钝。影响人的记忆力和思考能力。03.过度沉迷于电视节目穷人靠电视剧打发时间，现在互联网时代，刷手机视频，就像是毒品，吸引着人们不断的刷。大量的时间都花在上面。04.消极心态想法消极的人，很难正视
【日本鲫鱼钓】浮游矶钓不同目标鱼不同钓法，日本专业矶钓书籍夏说钓鱼
夏说钓鱼，聊海外钓鱼，助钓友钓技！浮游矶钓不同目标鱼不同钓法，翻译来自《日本図解釣り入門基礎から始める海のウキ釣り入門》说到浮钓，由于它的目标鱼类多种多样，因此针对不同类型的目标也会有不同的浮钓方式。下面介绍一下同种类的浮钓方法和目标鱼类。【伸缩竿的小型钓法】用4.5～5.3米的伸缩竿的钓鱼方法。与矶钓竿相比，这种钓鱼竿更加轻便，连儿童也可以使用。目标鱼类有鲰虎鱼、海鲫、沙氏下鱲、竹荚鱼、鲪鱼、小
10月16日学习健身抖音定投一乐日记
一乐日记今天以下是每天定投数据：第一项：学习数据今天学习理论法5小时。第二项：健身数据今天走路微信统计5124步。另外抱着一乐在房子走路有2000步，因为没有带手机，所以没统计上去。俯卧撑40个，仰卧起坐30个。第三项：快手数据每天发一幅图片配文字今日更新数据：（发布后24小时数据）播放140次，点赞0次，总粉丝数8个。………………………………特别说明：关注一乐日记，免费领取书籍！每天更新一篇文章
世上最重要的事，不在于我们在何处，而在于我们朝着什么方向走。——转摘三重门颖嘉_TYJ
【日精进打卡第1685天】姓名：陈颖嘉公司：无【知～学习】✨努力、谦虚、反省、感谢、利他、乐观✨用六项精进来表达我们的生活方式。经典诵读：✨《六项精进》2遍，共3340遍✨《六项精进—通篇》0遍，共15遍✨《大学》2遍，共3340遍✨《六项精进》书籍3遍，共447页✨《经营十二条》书籍2遍，共268页✨《活法》书籍1遍，共224页✨《经营为什么需要哲学》书籍1遍，共192页✨《六项精进实践》书籍1
读书打卡绿贝壳5
2020年3月18日读书打卡第78天书籍题目：《鲁滨逊漂流记》作者：丹尼尔·笛福读书页数：182页～200页好词：钦佩，忠实，成家立业，安身立命，智恩图报，通情达理，三番五次
一个人的认知里，藏着他读过的每一本书罗雁儿
读洞见文章，摘抄如下：任正非曾说：“我的工作就是读书，无论去哪儿出差，我都会带上一本书，别人飞机上睡一觉的工夫，300页的书我就翻完了。”在华为，任正非要求高管们有“宽文化背景”。简而言之，就是军事、哲学、政治等各种领域的知识都要有所涉猎。在任正非看来，那些看似跟工作无关的书籍知识，完全可以迁移到生活工作上。30多年来，他一直倡导这个理念并躬身实践着。他从李冰父子治水的故事中得到启示，写了一篇《深
开始就好小喜
第一节的时候，打扫卫生，分组，定班级负责人，安排座位，说规矩和要求，然后分发书籍，开展计时阅读训练两次，每10分钟一次。最好布置阅，希望大家用一周的时间阅读完《鲁滨逊漂流记》这本书。以便下周第2节阅读课的讨论交流可以正常展开。今天是七年级阅读课的第二节。一上课我就先做了一个学情统计，请一周时间内阅读完这本书的同学举手。虽然问之前我已经做好了充分的心理准备，知道大家不一定会积极进行阅读。但是实在没想
在职四战考研3day MM加油女孩
今日已完成考研任务：与教务处老师联系，学习怎么正确使用书籍；看333教育综合大纲；日总结：下午下班后与教务处老师联系，老师跟我讲了资料的正确使用方式，心里也有了大概的思路——根据老师提供的教材，我第一轮需要用到的资料就是一本通+网课，书籍只作为辅助对象，倘若网课里的内容听懂了，老师说书籍就可以不看了。第二轮复习：就是网课+自己构建思维导图，并尝试做333教育综合的主观题；第三轮复习：背诵客观题起码
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

数学之美————每章小结

数学之美

第1章：文字和语言VS数字和信息

1.文字和数字

2.文字和语言背后的数学

3.总结思考

第2章：自然语言处理-规则到统计

2.总结：

第3章：统计语言模型

1.最简单的统计模型：

3.训练模型：0概率（非平滑）和平滑方法：

第4章：谈谈中文分词

1.中文分词的演变：

2.分词的一致性和粒度、层次问题：

第5章：隐含马尔可夫模型

１.通信模型：

２.马尔可夫链：

３.隐含马尔可夫模型：

４.总结：

第6章：信息的度量和作用

1.信息熵

2.信息的作用：

3.互信息：

4.相对熵：

第7章：贾里尼克和现代语言处理

1.作者和贾里尼克教育观点：

2.大师都只讲哪里不要做，而不是做什么：

3.一个老实人的奇迹：

第8章 简单之美 布尔代数和搜索引擎

1搜索引擎三要素：

2.布尔运算：

3.索引：

第9章：图论和网络爬虫

1.两种图遍历方法：

2.网络爬虫：

3.欧拉定理：

4.网络爬虫搜索和下载方式：

第10章：pagerank—google的民主表决式网名，网页排序算法思想

1.pagerang的核心思想：

第11章：如何确定网页和查询的相关性

1.词频率：

2.去除暂停词：

3.词权重作用：

4. 词权重方法：

第12章：地图和本地搜索的最基本技术—有限状态机和动态规划

1.有限状态机：

2.动态规划：

3.有限状态传感器：

第13章：Google AK-47 的设计者——阿密特·辛格博士—寻求简单的哲学

1.简单的哲学思想：

第14章：余弦定理和新闻分类

1.新闻分类思想：

2.具体步骤：

3.优化方法

第15章：矩阵运算和文本处理中的两个分类问题

1.本章解决一个问题：

2.步骤：

3.效果：

4.计算方法：

第16章：信息指纹及其应用

1.信息指纹：

2.判断两集合相同：

3.判断两集合基本相同：

4.Youtube反盗版：

第17章：由电视剧《暗算》所想到的—密码学

1.公开密钥加密步骤：

2.总结：

第18章：闪光的不一定是金子 — 谈谈搜索引擎

1.网页作弊：

2.两种作弊方式：

3.总结：

第19章：谈谈数学模型的重要性

第20章：不要把鸡蛋放到一个篮子里—最大熵

1.最大熵原理：

2.最大熵原理指出：

3.改进的迭代算法【IIS】：

第21章：拼音输入法的数学原理

1.汉字输入法的的快慢：

2.编码速度的快慢：

3.双拼到全拼的转变：

第8章简单之美布尔代数和搜索引擎