007-047-越写越快乐之浅谈单向散列函数

图书封面 - 图片来自App

本次的越写越快乐系列为大家带来单向散列函数的分享，也就是我们经常说的哈希函数的统称，接下来我会通过以下几个方面来说明单项散列函数的内容。

什么是单项散列函数

这个文件是不是真的呢

Alice在公司从事软件开发工作。一天晚上，她的软件终于完成了，接下来只要把文件从Alice的电脑中复制出来并制作成母盘就可以了。
但是Alice已经很累了，她决定今天晚上早点回家休息，明天再继续弄。
第二天，Alice来到公司准备把文件从自己的电脑中复制出来，但她突然产生了这样的疑问：“这个文件和我昨天晚上生产的文件是一样的吗？”
Alice的疑问是这样的——会不会有人操作Alice的计算机，将文件改写了呢？就算没有人直接来到Alice的座位上，也有可能通过网络入侵Alice的计算机。或者，也许Alice的计算机感染了病毒，造成文件被篡改……在这里，是人文的还是病毒干的并不重要，我们姑且把篡改文件的这个主体称为“主动攻击者Mallory”。总而言之，Alice需要知道从昨天到今天的这段时间内，Mallory是否篡改了文件的内容。
那有没有什么办法帮助验证Alice手上的文件是不是“真的”呢？如果这个文件和昨天晚上生成的文件一模一样，那它就是真的；但只要有一点点不一样，哪怕只要一个比特(bit)有所不同、增加或者减少，它就不是真的。这种“是真的”的性质称为完整性，也称为一致性。也就是说这里Alice需要确认的，是自己手上的文件的完整性。
稍微想一下我们就能找到一种确认文件完整性的简单方法——在回家之前先把文件复制到一个完全的地方保存起来，第二天在用这个文件工作之前，先将其和事先保存的文件进行对比就可以了。如果两者一致，那就说明文件没有被篡改。
不过这种确认完整性的方法其实是毫无意义的。因为如果可以事先把文件保存在一个安全的地方，那根本就不需要确认完整性，直接用事先保存的文件来工作不就行了吗？
此外还有一个效率问题。如果需要确认完整性的文件非常巨大，那么文件的复制、保存以及比较都将非常耗时。

终于轮到我们的猪脚单向散列函数出场了，就像刑事侦查中获取指纹一样，我们能不能获取到Alice所生成的文件的“指纹”呢？如果我们不需要对整个巨大的文件进行对比，只需要对比一个较小的指纹就能够检查完整性的话，那该多方便啊。

什么是单向散列函数

单向散列函数有一个输入和输出，其中输入称为消息（message），输出称为散列值（hash value）。单向散列函数可以根据消息的内容计算出散列值，而散列值就可以被用来检查消息的完整性。单向散列函数所生成的散列值，就相当于消息的“指纹”。

要点：消息的长度没有限制，生成的散列值有固定长度(bit)。

单向散列函数的性质

根据任意长度的消息计算出固定长度的散列值
首先，单向散列函数的输入必须是任意长度的消息。其次，无论输入多长的消息，单向散列函数必须能够生成长度很短的散列值。从使用方便的角度看，散列值的长度最好是短且固定的。
能够快速计算出散列值
计算散列值所花费的时间必须要短。
消息不同散列值也不同
为了能够确认完整性，消息中哪怕只有1比特的改变，也必须有很高的概率产生不同的散列值。
具备单向性
单向散列函数必须具备单向性。单向性指的是无法通过散列值反计算出消息的性质。根据消息很容易计算出散列值，但是根据散列值几乎很难推断出消息的内容。

单向散列函数的实际应用

检测软件是否被篡改

我们可以使用单向散列函数来确认自己下载的软件是否被篡改。我们的具体操作步骤如下：

用户自行下载软件到本地
计算该软件的散列值
比对官方网站上公布的散列值和自行计算的散列值
根据比对结果来判断自己下载的文件是否是安全的软件，有没有被恶意篡改

基于口令的加密

单向散列函数也被用于基于口令的加密（Password Based Encryption，PBE）。PBE的原理是将口令和盐（salt - 通过伪随机数生成器产生的随机值）混合计算其散列值，然后将这个散列值用作加密的密钥。

消息认证码

使用单向散列函数可以构造消息认证码。消息认证码是将“发送者和接收者之间的共享密钥”和“消息”进行混合后计算出的散列值。使用消息认证码可以检测并防止通信过程中的错误、篡改以及伪装。

数字签名

在进行数字签名时也会使用单向散列函数。数字签名是现实社会中的签名和盖章这样的行为在数字世界中的实现。数字签名的处理过程非常耗时，因此一般不会对整个消息内容直接施加数字签名，而是先通过单向散列函数计算出消息的散列值，然后再对对散列值施加数字签名。

伪随机数生成器

使用单向散列函数可以构造伪随机数生成器。密码技术中所使用的随机数需要具备“事实上不可能根据过去的随机数列预测未来的随机数列”这样的性质。为了保证不可预测性，可以利用单向散列函数的单向性。

一次性口令

使用单向散列函数可以构造一次性口令（one-time password）。一次性口令经常被用于服务器对客户端的合法性认证。在这种方式中，通过单向散列函数可以保证口令只在通信链路上传送一次（one-time），因此即使窃听者窃取了口令，也无法使用。

单向散列函数的具体例子

MD系列

MD5（Message Digest 消息摘要 5）也就是Rivest提出的针对MD4的改进版本，它能够产生128比特的散列值（RFC1321）[https://www.rfc-editor.org/rfc/rfc1321.txt]。MD5的强抗碰撞性以及被攻破，也就是说现在已经能够产生相同散列值得两条不同的消息。

SHA系列

SHA-1是由NIST（美国国家标准技术研究所）设计的一种能够产生160比特的散列值的单向散列函数。
1993年被作为作为美国联邦信息处理标准规格（FIPS PUB 180）发布的是SHA（安全散列算法）。
1995年发布的修订版FIPS PUB 180-1称为SHA-1。
SHA-224、SHA-256、SHA-384和SHA-512是目前NIST制定的SHA-2的版本，SHA后面的数字代表消息通过单向散列函数生成的散列值的长度（bit-比特）。
下面的表格给出目前6个版本的SHA-2标准的简要情况：

名称	输出长度(bit)	备注
SHA-224	224	将SHA-256的结果截掉32比特
SHA-256	256
SHA-512/224	224	将SHA-512的结果截掉288比特
SHA-512/256	256	将SHA-256的结果截掉256比特
SHA-384	384	将SHA-256的结果截掉128比特
SHA-512	512

在2005年SHA-1的强抗碰撞性被攻破的背景下，NIST开始着手制定用于取代SHA-1的下一代单向散列函数SHA-3。Keccak的算法最终成为了SHA-3的新标准。Keccak的设计者之一Gilles Van Assche在GitHub上发布了一款名为Keccak Tools的软件。

RIPEMD-160

RIPEMD-160是于1996年由Hans Dobbertin、Antoon Bosselaers和Bart Preneel设计的一种能够产生160比特的散列值的单向散列函数。RIPEMD-160是欧盟RIPE项目所设计的RIPEMD单向散列函数的修订版。这一系列额函数还包括RIPEMD-128、RIPEMD-256、RIPEMD-320等其他一些版本。RIPEMD的强抗碰撞性已经于2004年被攻破，但RIPEMD-160还尚未被攻破。

比特币中使用的就是RIPEMD-160。

应该使用哪些单向散列函数

MD5 - 不建议使用
SHA-1 - 不建议使用
SHA-2 - 建议使用
SHA-3 - 建议使用

单向散列函数无法解决的问题

使用单向散列函数可以实现完整性的检查，也就是说单向散列函数能够辨别出“篡改”，但无法辨别出“伪装”。

总结

通过对《图解密码技术》第七章节的学习，我们知道了单向散列函数的概念、使用场景以及为什么要使用单向散列函数，那么接下来我们就要看看在具体的编程语言中是如何实现单向散列函数的，那么接下来我有机会会为大家继续分享单向散列函数的有关内容，我相信密码学不是那么复杂，只是我们的认知有限，自认为目前流行的区块链技术使用了哪些高深的技术，使用了哪些不那么通俗易懂的术语，当然书中还探讨了一些单向散列函数的碰撞性问题、SHA-3的选拔过程、Keccak的内部状态和Keccak函数的实现步骤，这些内容想要一口气消化那是不可能完成的任务，除非你对密码学底层实现技术有特别深入的研究，那么我建议你熟悉常见的单向散列函数的使用场景、基本原理和使用步骤就足够了。当然作为一个区块链技术的爱好者来说，这些基本知识是必须要知道并且熟练使用的，我相信你的努力不会白费，我更相信你走过的每一步都算数，我更知道有无数的007战友都在支持我们去探索不一样的人生和进化，要是我的文章对你有所启发，那将是我莫大的荣幸。