Chapter.16信息指纹及其应用
1.信息指纹不可逆,既无法根据它推出原有信息。
2.用信息指纹判断集合是否相同可大大减少运算量(且不占用额外的储存空间)
3.一个视频文件虽然每秒有数帧的图像,但只有极少数帧的图像是完整的,这些被称为关键帧,其余帧存储的只适合关键帧相比的差异值。
问题描述:网络爬虫在哈希表上记录已经访问过的网页时,需要计算出每个网页的指纹。
问题转变成了将一串任意长度的网址转变成一个定长的随机数,这个数字就是这个网页的指纹。
计算方法:
1、冯诺伊曼法:较差,不同的字串容易产生相同的指纹
2、梅林旋转算法:比较差,产生的随机数之间有相关性,当用于加密的HTTPS时,破解了一个就等于破解了一大堆
3、MD5和SHA-1:它们是现在常用的伪随机数产生器所使用的标准,非常安全。
应用:判断两个集合相同
1.关键词相同:“北京中关村星巴克”和“星巴克北京中关村”是否相同?
判断方法:计算两个集合中每个元素的指纹,加它们相加
如:S = {e1,e2…en},它的指纹FP(S) = FP(e1) + FP(e2) + … + FP(e3)
加法的交换率保证了上面的两组关键词的指纹是相同的
2.垃圾邮件判定
一个账号A发送的邮件地址指纹如果和已知的黑名单账号B基本相同,那么可以把A拉黑了。
3.判定文章抄袭
同理,提取关键词,计算指纹,比较
4.Youtube反盗版
提取关键帧,计算指纹,比较
5、相似哈希在判定集合基本相同中的应用
Chapter.17密码学的数学原理
最早的密码:把26个字母按照双方制定的规则映射成其它的字母。
破解方法:统计词频,如英文字母e的出现频率最高。
改进方法:将原来一对一的映射改成一对多的映射。
什么是好的密码?好的密码是统计上均匀分布,不能根据已知的明文和密文推断出新的密文,当敌方截获密码后,获得的信息量不增加。
现代的加密方法:
《暗算》中的光复一号密码
原理:现今对于大数的质因数分解还没有快速有效的算法。
1.密码的最高境界是敌人在截获密码后,对我方的信息量并没有增加。当密码之间分布均匀且独立统计时,提供的信息量最少。均匀分布使敌人无从统计,独立统计保证密文不会被一并破译。
2.密钥原理:
2.1.找两个很大的素数P和Q,越大越好,然后计算它们的乘绩:N=P*Q;M=(P-1)*(Q-1)
2.2.找一个和M互素的整数E(E和M最小公约数为1)
2.3.找一个整数D,使E*D/M余1,即E*Dmod M=1
2.4.其中E是公钥,谁都可以用来加密,D是私钥用于解密,一定要保存好,乘积N是公开的,被人知道也无所谓
2.5.对X加密得到Y----X^(E)mod N=Y
2.6.根据费马小定理,用如下公式解密 Y^(D) mod N=X
3.公开密钥保证产生的密文是统计独立而分布均匀的,更重要的是N,E可以给任何人加密用,但是只有掌握密钥D的人才能够解密;其破解方法是对N进行因式分解(穷举强算)
Chapter.18搜索引擎反作弊问题
1.常见作弊方法:重复关键词,链接买卖
2.解决噪声干扰基本思路:从信息源出发,加强通信编码自身抗干扰能力;在传输中过滤掉噪音,还原信息
3.某些高端手机能识别接听环境下的噪音频率,并加上一个频率相同振幅相反的信号进行除噪,保证通话质量
4.原始的信号混入了噪音,在数学上相当于给两个信号做卷积,噪音消除的过程就是一个解卷积的过程。
5.只要噪音不是完全随机且前后有相关性,就可以检测到并消除,而完全随机不相关的高斯白噪声是很难消除的。
6.在图论中定义,如果有几个节点两两都互相连接在一起,它们被称之为一个CLIQUE.
值得注意的是,作弊网站还有两个明显的特征:
1.作弊网站之间的余弦距离几乎为1
2.作弊网站内部有大量的互相自链,内部形成闭环
Chapter.19 数学模型的重要性
对于任何问题,找到准确的数学模型是最重要的,这比研究什么机器学习算法要有效的多。
例:古代历法周期的确定
古埃及:以天狼星和太阳的位置判断一年的时间,这个数学模型不好,古埃及测量的一年=365*4+1=1461天
美索不达米亚:以五大行星的位置确定一年的时间,他们已经有了月和四季的概念。这个数学模型就相对准确一些。
金星每四年在天上画一个五角星。
了解托勒密的贡献(地心说代表人),他的伟大之处难以言表,任何一条发明都足以载入史册:
1. 发明了球坐标
2. 发明了经纬线
3. 发明了弧度制
4. 发明了黄道
5. 用约50个大圆套小圆的模型精确计算出了所有行星的运动轨迹,其精度之高以至于现今的平润年规则都是基于他的功劳。
数学模型的要点,原文总结了4点,说的非常好
1.一个正确的数学模型应当在形式上是简单的
2.一个正确的模型在一开始可能不如一个精雕细琢过的错误模型来的准确,但认为大方向对时就应该坚持下去
3.大量准确的数据对研发很重要
4.正确的模型有可能受噪音的干扰,这是去寻找噪音的根源也许会通往一个重大的发现。(海王星的发现)
Chapter.20 最大熵模型
核心思想:等概率
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的。我们常说,信息熵最大,所以人们称这种模型叫“最大熵模型”
1.最大熵模型:保留全部不确定性,对未知情况不作任何主观假设,将风险降到最小。可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常简单,非常优美;从效果上看,它是唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑性的模型。
2.对任何一组不自相矛盾的信息,最大熵模型必存在且唯一。
3.最大熵模型虽然原理简单,但实现却需要非常大的运算量
4.最原始的最大熵模型训练方法---通用迭代算法GIS,其步骤大致为:
4.1.假设第零次迭代的初始模型为等概率的均匀分布
4.2.用第N次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的,就把相应的模型参数变小,否则变大。
4.3.重复步骤2知道收敛
5.GIS是一个典型的最大期望算法(EM)改进迭代算法IIS算法