很多软件和应用都需要随机数,从纸牌游戏中纸牌的分发到 SSL 安全协议中密钥的产生,到处都有随机数的身影。随机数至少具备两个条件:
自从计算机诞生起,寻求用计算机产生高质量的随机数序列的研究就一直是研究者长期关注的课题。一般情况下,使用计算机程序产生一个真正的随机数是很难的,因为程序的行为是可预测的,计算机利用设计好的算法结合用户提供的种子产生的随机数序列通常是“伪随机数”(pseudo-random number),伪随机数就是我们平时经常使用的“随机数”。伪随机数可以满足一般应用的需求,但是在对于安全要求比较高的环境和领域中存在明显的缺点:
只有实际物理过程才是真正的随机,只有借助物理世界中事物的随机性才能产生真正的随机数,比如真空内亚原子粒子量子涨落产生的噪音、超亮发光二极管在噪声的量子不确定性和放射性衰变等。
生成随机数是密码学中的一项基本任务,是生成加密密钥、加密算法和加密协议所必不可少的,随机数的质量对安全性至关重要。最近报道有人利用随机数缺点成功攻击了某网站,获得了管理员的权限。美国和法国的安全研究人员最近也评估了两个 Linux 内核 PRNG——/dev/random 和/dev/urandom 的安全性,认为 Linux 的伪随机数生成器不满足鲁棒性的安全概念,没有正确积累熵。可见随机数在安全系统中占据着非常重要的地位。
1994 年,美国软件工程师 Theodore Y. Ts'o 第一次在 Linux 内核中实现了随机数发生器,使用 SHA-1 散列算法而非密码,提高了密码强度。
Linux 内核采用熵来描述数据的随机性,熵(entropy)是描述系统混乱无序程度的物理量,一个系统的熵越大则说明该系统的有序性越差,即不确定性越大。内核维护了一个熵池用来收集来自设备驱动程序和其它来源的环境噪音。理论上,熵池中的数据是完全随机的,可以实现产生真随机数序列。为跟踪熵池中数据的随机性,内核在将数据加入池的时候将估算数据的随机性,这个过程称作熵估算。熵估算值描述池中包含的随机数位数,其值越大表示池中数据的随机性越好。 内核中随机数发生器 PRNG 为一个字符设备 random,代码实现在 drivers/char/random.c,该设备实现了一系列接口函数用于获取系统环境的噪声数据,并加入熵池。系统环境的噪声数据包括设备两次中断间的间隔,输入设备的操作时间间隔,连续磁盘操作的时间间隔等。 对应的接口包括:
void add_device_randomness(const void *buf, unsigned int size); void add_input_randomness(unsigned int type, unsigned int code, unsigned int value); void add_interrupt_randomness(int irq, int irq_flags); void add_disk_randomness(struct gendisk *disk); |
内核提供了 1 个的接口来供其他内核模块使用。
|
|
该接口会返回指定字节数的随机数。random 设备了提供了 2 个字符设备供用户态进程使用——/dev/random 和/dev/urandom:
/dev/random 也允许写入,任何用户都可以向熵池中加入随机数据。即使写入非随机数据亦是无害的,因为只有管理员可以调用 ioctl 以增加熵池大小。Linux 内核中当前熵的值和大小可以通过访问 /proc/sys/kernel/random/得到,比如:
|
|
但是 Linux 内核中随机发生器中存在几个弱点,在嵌入式系统(缺少鼠标键盘),Live CD 系统(缺少磁盘),路由器,无盘工作站和一些服务器系统中,环境熵的来源较为受限,随机数质量会有所下降。对于有 NVRAM 的系统,建议在关机时保存一部分随机数发生器的状态,使得在下次开机时可以恢复这些状态。对于路由器而言,可以考虑把网络数据可以作为熵的主要来源。
EGD(熵收集守护进程,entropy gathering daemon)通常可以在不支持/dev/random 设备的 Unix 系统中提供类似的功能。这是一个运行于用户态的守护进程,提供了高质量的密码用随机数据。一些加密软件,比如 OpenSSL,GNU Privacy Guard 和 Apache HTTP 服务器支持在/dev/random 不可用的时候使用 EGD。
EGD,或者类似的软件 prngd,可以从多种来源收集伪随机的熵,并对这些数据进行处理以去除偏置,并改善密码学质量,然后允许其它程序通过 Unix 域套接口(通常使用/dev/egd-pool),或 TCP 套接口访问其输出。该程序通常使用建立子进程的以查询系统状态的方式来收集熵。它查询的状态通常是易变和不可预测的,例如 CPU,I/O,网络的使用率,也可能是一些日志文件和临时目录中的内容。
EGD 通过一个简单的协议与那些需要随机数的客户端进行通信,客户端通过连接 EGD socket 发送命令(从前八位来识别命令):
当前有很多硬件随机数产生器(hwrng)用于产生可靠的随机数,但都是商用的,价格比较昂贵,最常使用的是 ComScire QNG,截止笔者写这篇文章,ComScire PQ4000KU 的官方价格接近 900 美元。
Intel’s Ivy Bridge family 有一个功能叫”Secure Key”, 处理器包含了一个内部硬件 DRNG(Digital Random Number Generator)用于产生随机数,使用汇编指令 RDRAND 即可获得高强度的随机数,Linux Kernel 会使用异或操作把 RDRAND 产生的随机数混合进熵池, 代码实现在 drivers/char/random.c 的 extract_entropy()函数里。
1 2 3 4 5 6 |
|
还有一些第三方的硬件随机数生成器,通常是 USB 或者 PCI 设备,主要是在服务器上使用。Linux Kernel 的 hwrng(hardware random number generator)抽象层(/dev/hwrng 设备)可以选择监控 RNG 设备,并且在熵池数据不足的时候要求设备提供随机数据到 kernel 的熵池,rngd 守护进程可以读取 hwrng 的数据然后补给到 kernel 的熵池中。
虚拟机环境下和服务器情况类似,输入设备操作很少,相对于 Host 而言,Disk I/O 也相对较少,因此依赖 Guest 自身 PRNG 产生的随机数质量不高,因此虚拟机通常从 Host(宿主机)获取部分随机数据。对于 KVM 虚拟机来说,存在一个半虚拟化设备 virtio-rng 作为硬件随机数产生器。Linux Kernel 从 2.6.26 开始支持 virtio-rng, QEMU 在 1.3 版本加入了对 virtio-rng 的支持。 virtio-rng 设备会读取 Host 的随机数源并且填充到 Guest(客户机)的熵池中。通常情况下使用/dev/random 作为输入源。当然,数据源可以更改,当 Host 系统中存在 hwrng 的情况下你可以使用/dev/hwrng 来作为 virtio-rng 的输入源。 也可以把 hwrng 设备 pass-through(透传)到客户机中,但是并不实用,比如在虚拟机 Live Migration(实时迁移)时会存在问题。在 Guest 中添加 virtio-rng 设备具体操作,使用/dev/random 作为输入源,两种方法:
1 2 3 4 5 |
|
1 2 |
|
虚拟机启动后,在 Host 端:
1 2 3 |
|
会看到当前 QEMU 进程正在使用/dev/random 设备。
1 2 3 4 5 6 7 8 |
|
可以看到 Guest 已经识别到硬件随机数产生器。
1 |
|
添加 bs 选项并且最好设置的值比较小,因为 Host 上随机数资源可能会比较少,如果 bs 设置值太大,短时间内可能无法获得足够的数据写入文件,同时在 Host 端多做一些鼠标键盘或者磁盘的操作,会更快地产生随机数。
1 2 3 |
|
使用 EGD 协议来作为输入源
1 2 3 4 5 |
|
1 2 3 |
|
随机数在计算机系统中有着非常重要的作用,本文阐述了随机数的概念和重要性,介绍了在 Linux 中产生随机数的方法,以及在 KVM 环境下虚拟机如何使用 virtio-rng 来获取随机数据。