假定每个人的生日是等概率的,在不考虑闰年的情况下每年有365天。在k个人中至少有两个人的生日相同的概率大于1/2,问k的最小值是多少?
把每个人的生日看成在[1,365]中的随机变量,由组合基本知识得知k个人的生日不相同的概率为:
设k个人的生日至少有一个相同的概率为P(k)。
当k = 23时,pk ≈ 0.4927,从而P(23) = 1-pk ≈ 0.5073 > 0.5
我们将k的值设置为100,此时,P(100) = 1- pk ≈ 0.9999997,即该事件几乎必然发生。
下表为k取不同值时P(k)的值。
k | P(k) |
---|---|
10 | 0.1169 |
23 | 0.5073 |
30 | 0.7063 |
40 | 0.8912 |
50 | 0.9704 |
60 | 0.9941 |
100 | 0.9999 |
,在k = 40的时候,P(k)的值竟然已经高达了0.9!这个结果和我们一贯的直觉并不一致。因此被称为生日悖论。
其实,如果从k个人中抽出一个人,其他人与这个特定的人具有相同生日的概率将会是非常的小的,只有365-1。但是,如果我们并不指定特定的日期,仅仅只是寻找两个生日相同的人,那么问题就会非常的容易,在相同的范围内成功的概率也会大得多。
对于输出长度为128比特的Hash函数求碰撞,便类似于以上我们介绍的生日悖论问题的情况。即:
要找到与一个特定的消息具有相同散列值的另一个消息的概率很小,但是如果不指定特定的散列值,只是在两组消息中找到具有相同散列值的两个消息,那么问题就会简单的多。
已知两个k元集合X={x1,x2,…,xk},Y={y1,y2,…,y1},其中xi,yj,1≤i,j≤k是{1,2,…,n}上均匀分布的随机变量。取定xi,如果xi=yj,则称xi和yj匹配。
固定i,j,则yj与xi匹配的概率为n-1,那么其不匹配,即xi≠yj的概率为1-n-1。
Y中所有k个随机变量都不等于xi的概率为(1-n-1)k。
如果X,Y中的k个随机变量两两互不相同,则X与Y中不存在任何匹配的概率为(1-n-1)k*k。
从而X与Y至少有一个匹配的概率为p=1-(1-n-1)k*k。
由数学知识知,当n趋近于无穷时,(1 + x/n) = ex,所以有:p=1-(1-n-1)k×k≈1 - (e-1/n)k×k。
如果我们令p大于0.5,则可求得:k = [(ln2)×n]0.5 ≈ 0.83(n)0.5 ≈ n0.5
“两个集合相交”问题可以转述为:假设Hash函数h输出的长度为m,全部可能的输出有n = 2m个。Hash函数接收k个随机输入产生X,接收另外k个随机输入产生Y。
根据之前的讨论知,当取k = 2m/2时,X与Y至少存在一对匹配的概率大于0.5,即Hash函数产生碰撞的概率大于0.5。由此可知,2m/2将决定输出长度为m的Hash函数H抗碰撞的强度。
在通常情况下,攻击者利用上述原理生成Hash函数碰撞,达成其攻击目的的攻击称为生日攻击,也称为平方根攻击。对于输出长度为m的Hash函数,其攻击复杂度为2m/2。
例如,当Hash被用于数字签名方案以产生消息签名。如果攻击者可以找到两个碰撞的消息x和x’,使得这两个消息的摘要相等,那么攻击者就可以根据需要,使用适当的消息(x或x’)和消息签名相匹配,以达到诬陷、抵赖等目的。
注意:数字签名算法通常是对表达一定含义的消息进行处理,并非随机输入。
Yuval攻击的原理是攻击者通过对有意义的消息,加入空格、改变写法或格式,但保持含义不变,产生2m/2个不同的消息变形,即产生一个相同含义的消息组。具体过程如下:
(1)攻击者A准备好合法的消息x,再拟定一个准备替换消息x的假消息x’。
(2)攻击者对消息x产生2m/2个变形的消息(含义不变),同时产生x‘的2m/2个变形消息,计算所有这些消息的Hash值。
(3)比较这两个散列函数值集合,以便发现具有相同散列值的消息。根据生日悖论,两个相交集合问题成功的概率大于0.5.如果没有发现,那么再产生一批合法消息和假消息,直到出现一个匹配为止。
(4)攻击者将消息x发送给签名者A,得到其签名。
(5)用匹配的假消息x’代替x,后面依然附加A的签名,并将其送给接收方B。