MD5是一种常用的单向哈希算法。它被广泛用于以下几个用途:
1.检查数据是否一致。将两地存储的数据进行哈希,比较结果,如果结果一致就无需再进行数据比对。这是利用了其“抵抗冲突”(collision- resistant)的能力,两个不同的数据,其哈希值只有很小的几率一致。相当多数据服务,尤其是网盘服务,利用类似的做法来检测重复数据,避免重复上传。
2.存储用户密码。将密码哈希后的结果存储在数据库中,以做密码匹配。这是利用了其做为单向哈希的特点,从计算后的哈希值不能得到密码。
3.校验数据正确性。将数据和数据哈希后的结果一并传输,用于检验传输过程中数据是否有损坏。这是利用了很难找到两个不同的数据,其哈希结果一致的特点。
下面我们将说明为什么对于上面三种用途, MD5都不适用。
第一个用途尤其可怕。这个用途的最大的问题是,MD5在现实中已经被发现有相当多的数据都可能导致冲突。举例而言[附件],如下两段数据的MD5哈希值就是完全一样的。
数据 1
4d c9 68 ff 0e e3 5c 20 95 72 d4 77 7b 72 15 87
d3 6f a7 b2 1b dc 56 b7 4a 3d c0 78 3e 7b 95 18
af bf a2 00 a8 28 4b f3 6e 8e 4b 55 b3 5f 42 75
93 d8 49 67 6d a0 d1 55 5d 83 60 fb 5f 07 fe a2
数据 2
4d c9 68 ff 0e e3 5c 20 95 72 d4 77 7b 72 15 87
d3 6f a7 b2 1b dc 56 b7 4a 3d c0 78 3e 7b 95 18
af bf a2 02 a8 28 4b f3 6e 8e 4b 55 b3 5f 42 75
93 d8 49 67 6d a0 d1 d5 5d 83 60 fb 5f 07 fe a2
输出相同的MD5 哈希
008ee33a9d58b51cfeb425b0959121c9
这意味着,如果用户提供数据 1,服务器已经存储数据 2。通过简单的MD5哈希方式检查重复,服务器上为用户保存的数据就是2。接下来发生的事情大家都知道了,就是用户数据丢了!
第二个用途很容易遭到rainbow table攻击,和明文存储密码的实质区别不大。更详细的分析可以察看MD5续。
第三个用途里一般会在需要哈希的数据中混入某些秘密,也就是计算公式为md5(secret key + data)。但这样并不适合用于验证数据的完整性。这是因为,从理论上上来说,如果知道md5(secret key +X),即使不知道secret key的内容, 仍然可能通过对X的分析,计算得到md5(secret key +Y),从而将X成功的替换成Y,导致接收方仍然认为数据是正确的。
MD5【续】
前面一篇文章讲述了为什么应该放弃或减少使用MD5,意料之外的是,线上线下都有不少读者表示希望知道更多信息。也有一些专家级读者指出了文章中的一些不足和不够详细的地方。希望能在这篇文章中一并补充,如有错误,也烦请指正。
首先,原文是说MD5算法在很多场合都不再安全,应该避免使用,并不是全面否定其他安全哈希算法。SHA-2系列算法在最近几年应该还是足够安全和可靠的。另外,按照计划,SHA-3系列的哈希算法也即将在近期公开发布。
因此,对读者而言,这篇文章最有意义的提示是:“在使用安全哈希算法时,考虑使用SHA-2系列算法乃至更高级别算法,而不是MD5“。
MD5最大的问题在于,通过我国的王晓云教授等学者的工作,md5已经被证明可以进行碰撞攻击。也就是说,攻击者可以产生两个应用程序,内容不一样,但是哈希值完全一样。
在云存储的应用场合中,这种危害表现为攻击者可以伪造一个Windows 的安装光盘,在其中嵌入木马,通过上述手段让MD5哈希值和微软官方发布的光盘签名一致,抢先上传到分享类网盘中。如果该网盘采用MD5检查重复文件(例如离线下载服务),木马就会被植入到希望下载原版光盘用户的电脑中。
这种攻击形式不是天方夜谈,根据微软官方的报告,一款名为Flame的木马就用了类似的手段。当然,这种方式目前还是非常高级的攻击手段。
另外,实际应用中我们也常需要验证对方发送的数据没有经过任何攻击者篡改。例如,微博的API(应用接口)服务就需要验证请求来自于一个合法的授权方,而不是一个借用第三方名义的攻击者。
使用私钥加密,公钥解密验证的方式是完全可行的,但是因为非对称加密算法执行效率低下。因此,很多时候会用类似MD5的哈希算法验证哈希值和内容一致来保证数据未被篡改。
从前一篇文章的描述可以看出,MD5在这种场景是不安全的,不过需要额外注意的是,即使SHA-2系列的算法用于这个场景也是不安全的,这个时候应该考虑使用HMAC系列的对称验证算法。这个问题的根源是,从理论上上来说,如果知道hash(secret key +X),即使不知道secret key的内容, 仍然可能通过对X的分析,计算得到hash(secret key +Y),从而将X成功的替换成Y,导致接收误以为Y就是X。而HMAC尽管基于安全哈希算法,却能避免这个类型的攻击。
从开放API的实例来看,Flickr的API在早期犯过这个错误。
当然,如果用于验证通信中的数据是否因为信道干扰损坏(而非攻击者人为干扰),或者将数据进行足够均匀的分布,MD5还是完全称职的,甚至是优秀的。