背景

MD5消息摘要算法（英语：MD5 Message-Digest Algorithm），一种被广泛使用的密码散列函数，可以产生出一个 128 位（ 16 字节，被表示为 32 位十六进制数字）的散列值（hash value），用于确保信息传输完整一致。MD5 由美国密码学家罗纳德·李维斯特（Ronald Linn Rivest）设计，于 1992 年公开，用以取代 MD4 算法。这套算法的程序在 RFC 1321 中被加以规范。

将数据（如一段文字）运算变为另一固定长度值，是散列算法的基础原理。

原理

补全消息，在消息尾部，先添加一位 1，之后补 0，使得消息长度(bits) % 512 = 448；
然后把消息的长度值模上 2^64，然后凑齐 64 位拼在尾部，总长度恰好可以被 512 整除；
初始化 4 个 32 位值，分别为 h0, h1, h2, h3；
把消息分割成 k 份，每份长度 512 位，依次处理这 k 份数据；
把 h0, h1, h2, h3 和这 512 为数据块，进行 64 轮混淆和扩散处理；
拼接 h0, h1, h2, h3 然后输出。

注意：MD5 对消息的长度没有要求。

// 伪代码
unsigned int32 r[64], k[64]

//移位表
r[ 0..15] := {7, 12, 17, 22,  7, 12, 17, 22,  7, 12, 17, 22,  7, 12, 17, 22} 
r[16..31] := {5,  9, 14, 20,  5,  9, 14, 20,  5,  9, 14, 20,  5,  9, 14, 20}
r[32..47] := {4, 11, 16, 23,  4, 11, 16, 23,  4, 11, 16, 23,  4, 11, 16, 23}
r[48..63] := {6, 10, 15, 21,  6, 10, 15, 21,  6, 10, 15, 21,  6, 10, 15, 21}

//非线性变化，造成雪崩效益
for i from 0 to 63
    k[i] := floor(abs(sin(i + 1)) × 2^32)

//初始值
var int h0 := 0x67452301
var int h1 := 0xEFCDAB89
var int h2 := 0x98BADCFE
var int h3 := 0x10325476

//补全消息，首先必须添加一位 1，之后补 0，使得消息长度(bits) % 512 = 448
//然后把 message 的字节长度模上 2^64，以 64 位小端序的方式拼在尾部，总比特位数恰好可以被 512 整除
append "1" bit to message
append "0" bits until message length in bits ≡ 448 (mod 512)
append original length in bits mod 2^64 as 64-bit little-endian integer to message

//每次处理 512 位
for each 512-bit chunk of message
    //512 位每 32 位组成一个值，共 16 个，依次存入 w[0..15]
    break chunk into sixteen 32-bit little-endian words w[i], 0 ≤ i ≤ 15

    var int a := h0
    var int b := h1
    var int c := h2
    var int d := h3

    //Main loop:
    for i from 0 to 63
        if 0 ≤ i ≤ 15 then
            f := (b and c) or ((not b) and d)
            g := i
        else if 16 ≤ i ≤ 31
            f := (d and b) or ((not d) and c)
            g := (5×i + 1) mod 16
        else if 32 ≤ i ≤ 47
            f := b xor c xor d
            g := (3×i + 5) mod 16
        else if 48 ≤ i ≤ 63
            f := c xor (b or (not d))
            g := (7×i) mod 16
 
        temp := d
        d := c
        c := b
        //非线性变化，造成雪崩效益
        b := leftrotate((a + f + k[i] + w[g]),r[i]) + b
        a := temp
    Next i
    //Add this chunk's hash to result so far:
    h0 := h0 + a
    h1 := h1 + b 
    h2 := h2 + c
    h3 := h3 + d
End ForEach

// 小端序
unsigned int32 digest := h0 append h1 append h2 append h3

字节的排列方式有两个通用规则

大端序（Big-Endian）将数据的低位字节存放在内存的高位地址，高位字节存放在低位地址。这种排列方式与数据用字节表示时的书写顺序一致，符合人类的阅读习惯。
小端序（Little-Endian），将一个多位数的低位放在较小的地址处，高位放在较大的地址处，则称小端序。小端序与人类的阅读习惯相反，但更符合计算机读取内存的方式，因为CPU读取内存中的数据时，是从低地址向高地址方向进行读取的。

比如：存储 16 进制值 0x12345678，需要使用 4 个字节，存储字节在内存地址增长方向分别是

大端序方式存储：0x12 0x34 0x56 0x78

小端序方式存储：0x78 0x56 0x34 0x12

安全

1996 年后被证实存在弱点，可以被加以破解，对于需要高度安全性的资料，专家一般建议改用其他算法，如 SHA-2。2004 年，证实 MD5 算法无法防止碰撞攻击，因此不适用于安全性认证，如 SSL 公开密钥认证或是数字签名等用途。

2009 年，中国科学院的谢涛和冯登国仅用了 2^20.96 的碰撞算法复杂度，破解了 MD5 的碰撞抵抗，该攻击在普通计算机上运行只需要数秒钟。2011 年，RFC 6151 禁止 MD5 用作密钥散列消息认证码。

关于 MD5 的 16 位与 32 位的区别

MD5 哈希后的位数一般为两种，16 位与 32 位。16 位实际上是从 32 位字符串中，取中间的第 9 位到第 24 位的部分。

MD5₃₂("123123") = "4297F44B13955235245B2497399D7A93"

MD5₁₆("123123") = "13955235245B2497"

参考文献

MD5 - 维基百科
MD5 - 百度百科
MD5算法原理
哈希算法

加密技术04-哈希算法-MD5原理

背景

原理

安全

关于 MD5 的 16 位与 32 位的区别

参考文献

你可能感兴趣的:(加密技术04-哈希算法-MD5原理)