Redis源码中的CRC校验码(crc16、crc64)原理浅析

本文基于Github上的开发版。稳定版Redis 2.8中并无crc16.c文件,该文件后被收录到Redis 3.0版本中。

在阅读Redis源码的时候,看到了两个文件:crc16.c、crc64.c。下面我抛砖引玉,简析一下原理。

        CRC即循环冗余校验码,是信息系统中一种常见的检错码。大学课程中的“计算机网络”、“计算机组成”等课程中都有提及。我们可能都了解它的数学原理,在试卷上手工计算一个CRC校验码,并不是难事。但是计算机不是人,现实世界中的数学原理需要转化为计算机算法才能实现目的。实际上作为计算机专业背景人并不会经常使用或接触到CRC的计算机算法实现的原理,通常是电子学科背景的人士会接触的比较多点。计算机当然是可以直接模拟出CRC的原始算法的(我们手工计算的算法),但是效率肯定不高。那我们来看一下计算机是如何实现CRC校验码算法的吧!

CRC概念

        CRC基本原理不懂的,请移步维基百科:循环冗余检验码

        通常根据CRC校验码的位数(也等于生成多项式【G(x)】最高的幂次)的不同来区分不同的CRC算法,如CRC-1、CRC-8、CRC-16等。幂次相同的情况下,不同的标准也有不同的CRC算法。比如G(x)最高次幂为16的时候有:CRC-16-CCITT、CRC-16-IBM等。Redis使用的是CRC-16-CCITT标准,即G(x)为:x16 + x12 + x5 + 1 。

        G(x)的通常表征方式是将多项式转换成二进制: 1 0001 0000 0010 0001。用十六进制表示为:0x11021。该数存储空间是17位(2个字节+1个位,C语言实际存储是3个字节),实际上,在模二除的时候,被除数的最高位 1 和除数最高位 1 总是对齐的,其异或结果,总为0,故可省略,则G(x) = 0x1021(2个字节),节省了一个字节的空间。 


源码

redis的src目录下的 crc16.c文件:

static const uint16_t crc16tab[256]= {
    0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7,
    0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef,
    0x1231,0x0210,0x3273,0x2252,0x52b5,0x4294,0x72f7,0x62d6,
    0x9339,0x8318,0xb37b,0xa35a,0xd3bd,0xc39c,0xf3ff,0xe3de,
    0x2462,0x3443,0x0420,0x1401,0x64e6,0x74c7,0x44a4,0x5485,
    0xa56a,0xb54b,0x8528,0x9509,0xe5ee,0xf5cf,0xc5ac,0xd58d,
    0x3653,0x2672,0x1611,0x0630,0x76d7,0x66f6,0x5695,0x46b4,
    0xb75b,0xa77a,0x9719,0x8738,0xf7df,0xe7fe,0xd79d,0xc7bc,
    0x48c4,0x58e5,0x6886,0x78a7,0x0840,0x1861,0x2802,0x3823,
    0xc9cc,0xd9ed,0xe98e,0xf9af,0x8948,0x9969,0xa90a,0xb92b,
    0x5af5,0x4ad4,0x7ab7,0x6a96,0x1a71,0x0a50,0x3a33,0x2a12,
    0xdbfd,0xcbdc,0xfbbf,0xeb9e,0x9b79,0x8b58,0xbb3b,0xab1a,
    0x6ca6,0x7c87,0x4ce4,0x5cc5,0x2c22,0x3c03,0x0c60,0x1c41,
    0xedae,0xfd8f,0xcdec,0xddcd,0xad2a,0xbd0b,0x8d68,0x9d49,
    0x7e97,0x6eb6,0x5ed5,0x4ef4,0x3e13,0x2e32,0x1e51,0x0e70,
    0xff9f,0xefbe,0xdfdd,0xcffc,0xbf1b,0xaf3a,0x9f59,0x8f78,
    0x9188,0x81a9,0xb1ca,0xa1eb,0xd10c,0xc12d,0xf14e,0xe16f,
    0x1080,0x00a1,0x30c2,0x20e3,0x5004,0x4025,0x7046,0x6067,
    0x83b9,0x9398,0xa3fb,0xb3da,0xc33d,0xd31c,0xe37f,0xf35e,
    0x02b1,0x1290,0x22f3,0x32d2,0x4235,0x5214,0x6277,0x7256,
    0xb5ea,0xa5cb,0x95a8,0x8589,0xf56e,0xe54f,0xd52c,0xc50d,
    0x34e2,0x24c3,0x14a0,0x0481,0x7466,0x6447,0x5424,0x4405,
    0xa7db,0xb7fa,0x8799,0x97b8,0xe75f,0xf77e,0xc71d,0xd73c,
    0x26d3,0x36f2,0x0691,0x16b0,0x6657,0x7676,0x4615,0x5634,
    0xd94c,0xc96d,0xf90e,0xe92f,0x99c8,0x89e9,0xb98a,0xa9ab,
    0x5844,0x4865,0x7806,0x6827,0x18c0,0x08e1,0x3882,0x28a3,
    0xcb7d,0xdb5c,0xeb3f,0xfb1e,0x8bf9,0x9bd8,0xabbb,0xbb9a,
    0x4a75,0x5a54,0x6a37,0x7a16,0x0af1,0x1ad0,0x2ab3,0x3a92,
    0xfd2e,0xed0f,0xdd6c,0xcd4d,0xbdaa,0xad8b,0x9de8,0x8dc9,
    0x7c26,0x6c07,0x5c64,0x4c45,0x3ca2,0x2c83,0x1ce0,0x0cc1,
    0xef1f,0xff3e,0xcf5d,0xdf7c,0xaf9b,0xbfba,0x8fd9,0x9ff8,
    0x6e17,0x7e36,0x4e55,0x5e74,0x2e93,0x3eb2,0x0ed1,0x1ef0
};

uint16_t crc16(const char *buf, int len) {
    int counter;
    uint16_t crc = 0;
    for (counter = 0; counter < len; counter++)
            crc = (crc<<8) ^ crc16tab[((crc>>8) ^ *buf++)&0x00FF];
    return crc;
}

前文提到了CRC校验码不同的机构有不同的标准,这里Redis遵循的标准是CRC-16-CCITT标准,这也是被XMODEM协议使用的CRC标准,所以也常用XMODEM CRC代指。

该段代码的算法原理并不是作者首创的,这是比较经典的“基于字节查表法的CRC校验码生成算法”。


下面内容节选自一篇论文(请见最后的“参考资料”)。

Redis源码中的CRC校验码(crc16、crc64)原理浅析_第1张图片

        其实原文中在这里之后还有两步化简,不过感觉不需要理解了。注意上面的符号都是模二的,分数线【——】是模二除,加号【+】是模二加,即异或运算。

这里先明确几个概念:

  • CRC16的校验码是两个字节,所以Redis的源码中使用了 uint16_t类型(unsigned short int)
  • CRC16要校验的数据位是8位
  • 在求解CRC校验码的过程中,会用到模二除,实际我们最后不关心它的商Q(x),只关心关心余数R(x),它也是两个字节的大小
  • 余数R(x)分为高字节RH(x)和低字节RL(x)两个部分:R(x) = RH(x) * X^8 + RL(x) (这个+,可以理解成异或,也可以理解成+号)
  • 任何数和0异或结果还是这个数

观察最后一个多项式的第二个部分,可以发现这也是一个CRC校验码计算过程,它求解的数据是方括号内的内容——原校验码的高字节与当前数据位进行异或运算,设其结果为Dnew,然后对Dnew再求一次CRC校验码,设其结果为CRC(Dnew),再将CRC(Dnew)和原校验码的低字节进行异或。

上面等式,我简单概括一下(商可忽略):

        CRC(Mn+1(x)) = CRC(RnH(x) + M0(x)) + (RnL(x) * X^8)/G(x)

可以发现这个等式,等号左右两边都用到了CRC算法,不过其参数不同,很明显这是一个递归的形式。如果直接用计算机模拟这个公式,其时间效率是很低的,所以发明了“查表法”。

        因为CRC算法要校验的数据位是8位的,所以CRC算法的参数只有256种可能,所以事先将这256中参数(数据位)的CRC校验码计算出来,保存到数组之中,这个实际计算CRC校验码的时候,直接查表就可以了,其时间复杂度是O(1)。

CRC16查表法的推广

        在Redis源码目录下,还有一个crc64的文件,即64位CRC校验码的算法,实际上和CRC16查表法的原理是一样的,它也是校验的8位数据,所以其事先生成的CRC表(数组)中也是有256个元素,不过其中每个元素都是uint64_t类型(unsigned long int)
        CRC16的查表法当然还可以推广到CRC32算法中。这里还要提一下,该算法不一定是对8位数据进行校验,也可以对16位进行校验,这是CRC表中就需要有65536(2^16)个元素,浪费存储空间。也可以对半字节(4位)进行校验,这时CRC表要存储的元素个数是32(2^4),虽然节省了内存,但是同样的数据,每次只校验四个字节的话,会导致校验的次数增加很多,花费的计算时间变多。所以每次校验8字节,是在综合了时间和空间效率的前提下的一种折中方案。
        很多算法都是时间和空间,二者不可得兼的。

--------------------------------------------

参考资料

原明亭 蒋伟. 基于字节查表的循环冗余校验码的软件生成算法. 山东: 山东矿业学院学报(自然科学版),  1999, 第18卷第2期

你可能感兴趣的:(redis,源码,XModem,crc16-CCITT)