本文基于Github上的开发版。稳定版Redis 2.8中并无crc16.c文件,该文件后被收录到Redis 3.0版本中。
在阅读Redis源码的时候,看到了两个文件:crc16.c、crc64.c。下面我抛砖引玉,简析一下原理。
CRC即循环冗余校验码,是信息系统中一种常见的检错码。大学课程中的“计算机网络”、“计算机组成”等课程中都有提及。我们可能都了解它的数学原理,在试卷上手工计算一个CRC校验码,并不是难事。但是计算机不是人,现实世界中的数学原理需要转化为计算机算法才能实现目的。实际上作为计算机专业背景人并不会经常使用或接触到CRC的计算机算法实现的原理,通常是电子学科背景的人士会接触的比较多点。计算机当然是可以直接模拟出CRC的原始算法的(我们手工计算的算法),但是效率肯定不高。那我们来看一下计算机是如何实现CRC校验码算法的吧!
CRC基本原理不懂的,请移步维基百科:循环冗余检验码
通常根据CRC校验码的位数(也等于生成多项式【G(x)】最高的幂次)的不同来区分不同的CRC算法,如CRC-1、CRC-8、CRC-16等。幂次相同的情况下,不同的标准也有不同的CRC算法。比如G(x)最高次幂为16的时候有:CRC-16-CCITT、CRC-16-IBM等。Redis使用的是CRC-16-CCITT标准,即G(x)为:x16 + x12 + x5 + 1 。
G(x)的通常表征方式是将多项式转换成二进制: 1 0001 0000 0010 0001。用十六进制表示为:0x11021。该数存储空间是17位(2个字节+1个位,C语言实际存储是3个字节),实际上,在模二除的时候,被除数的最高位 1 和除数最高位 1 总是对齐的,其异或结果,总为0,故可省略,则G(x) = 0x1021(2个字节),节省了一个字节的空间。
static const uint16_t crc16tab[256]= { 0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7, 0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef, 0x1231,0x0210,0x3273,0x2252,0x52b5,0x4294,0x72f7,0x62d6, 0x9339,0x8318,0xb37b,0xa35a,0xd3bd,0xc39c,0xf3ff,0xe3de, 0x2462,0x3443,0x0420,0x1401,0x64e6,0x74c7,0x44a4,0x5485, 0xa56a,0xb54b,0x8528,0x9509,0xe5ee,0xf5cf,0xc5ac,0xd58d, 0x3653,0x2672,0x1611,0x0630,0x76d7,0x66f6,0x5695,0x46b4, 0xb75b,0xa77a,0x9719,0x8738,0xf7df,0xe7fe,0xd79d,0xc7bc, 0x48c4,0x58e5,0x6886,0x78a7,0x0840,0x1861,0x2802,0x3823, 0xc9cc,0xd9ed,0xe98e,0xf9af,0x8948,0x9969,0xa90a,0xb92b, 0x5af5,0x4ad4,0x7ab7,0x6a96,0x1a71,0x0a50,0x3a33,0x2a12, 0xdbfd,0xcbdc,0xfbbf,0xeb9e,0x9b79,0x8b58,0xbb3b,0xab1a, 0x6ca6,0x7c87,0x4ce4,0x5cc5,0x2c22,0x3c03,0x0c60,0x1c41, 0xedae,0xfd8f,0xcdec,0xddcd,0xad2a,0xbd0b,0x8d68,0x9d49, 0x7e97,0x6eb6,0x5ed5,0x4ef4,0x3e13,0x2e32,0x1e51,0x0e70, 0xff9f,0xefbe,0xdfdd,0xcffc,0xbf1b,0xaf3a,0x9f59,0x8f78, 0x9188,0x81a9,0xb1ca,0xa1eb,0xd10c,0xc12d,0xf14e,0xe16f, 0x1080,0x00a1,0x30c2,0x20e3,0x5004,0x4025,0x7046,0x6067, 0x83b9,0x9398,0xa3fb,0xb3da,0xc33d,0xd31c,0xe37f,0xf35e, 0x02b1,0x1290,0x22f3,0x32d2,0x4235,0x5214,0x6277,0x7256, 0xb5ea,0xa5cb,0x95a8,0x8589,0xf56e,0xe54f,0xd52c,0xc50d, 0x34e2,0x24c3,0x14a0,0x0481,0x7466,0x6447,0x5424,0x4405, 0xa7db,0xb7fa,0x8799,0x97b8,0xe75f,0xf77e,0xc71d,0xd73c, 0x26d3,0x36f2,0x0691,0x16b0,0x6657,0x7676,0x4615,0x5634, 0xd94c,0xc96d,0xf90e,0xe92f,0x99c8,0x89e9,0xb98a,0xa9ab, 0x5844,0x4865,0x7806,0x6827,0x18c0,0x08e1,0x3882,0x28a3, 0xcb7d,0xdb5c,0xeb3f,0xfb1e,0x8bf9,0x9bd8,0xabbb,0xbb9a, 0x4a75,0x5a54,0x6a37,0x7a16,0x0af1,0x1ad0,0x2ab3,0x3a92, 0xfd2e,0xed0f,0xdd6c,0xcd4d,0xbdaa,0xad8b,0x9de8,0x8dc9, 0x7c26,0x6c07,0x5c64,0x4c45,0x3ca2,0x2c83,0x1ce0,0x0cc1, 0xef1f,0xff3e,0xcf5d,0xdf7c,0xaf9b,0xbfba,0x8fd9,0x9ff8, 0x6e17,0x7e36,0x4e55,0x5e74,0x2e93,0x3eb2,0x0ed1,0x1ef0 }; uint16_t crc16(const char *buf, int len) { int counter; uint16_t crc = 0; for (counter = 0; counter < len; counter++) crc = (crc<<8) ^ crc16tab[((crc>>8) ^ *buf++)&0x00FF]; return crc; }
前文提到了CRC校验码不同的机构有不同的标准,这里Redis遵循的标准是CRC-16-CCITT标准,这也是被XMODEM协议使用的CRC标准,所以也常用XMODEM CRC代指。
该段代码的算法原理并不是作者首创的,这是比较经典的“基于字节查表法的CRC校验码生成算法”。
下面内容节选自一篇论文(请见最后的“参考资料”)。
其实原文中在这里之后还有两步化简,不过感觉不需要理解了。注意上面的符号都是模二的,分数线【——】是模二除,加号【+】是模二加,即异或运算。
这里先明确几个概念:
观察最后一个多项式的第二个部分,可以发现这也是一个CRC校验码计算过程,它求解的数据是方括号内的内容——原校验码的高字节与当前数据位进行异或运算,设其结果为Dnew,然后对Dnew再求一次CRC校验码,设其结果为CRC(Dnew),再将CRC(Dnew)和原校验码的低字节进行异或。
上面等式,我简单概括一下(商可忽略):
CRC(Mn+1(x)) = CRC(RnH(x) + M0(x)) + (RnL(x) * X^8)/G(x)
可以发现这个等式,等号左右两边都用到了CRC算法,不过其参数不同,很明显这是一个递归的形式。如果直接用计算机模拟这个公式,其时间效率是很低的,所以发明了“查表法”。
因为CRC算法要校验的数据位是8位的,所以CRC算法的参数只有256种可能,所以事先将这256中参数(数据位)的CRC校验码计算出来,保存到数组之中,这个实际计算CRC校验码的时候,直接查表就可以了,其时间复杂度是O(1)。
--------------------------------------------
原明亭 蒋伟. 基于字节查表的循环冗余校验码的软件生成算法. 山东: 山东矿业学院学报(自然科学版), 1999, 第18卷第2期