base64编码介绍:
Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于2的6次方等于64,所以每6个比特为一个单元,对应某个可打印字符。三个字节有24个比特,对应于4个Base64单元,即3个字节需要用4个可打印字符来表示。它可用来作为电子邮件的传输编码。在Base64中的可打印字符包括字母A-Z、a-z、数字0-9 ,这样共有62个字符,此外两个可打印符号在不同的系统中而不同。一些如uuencode的其他编码方法,和之后binhex的版本使用不同的64字符集来代表6个二进制数字,但是它们不叫Base64。
Base64常用于在通常处理文本数据的场合,表示、传输、存储一些二进制数据。包括MIME的email,email via MIME, 在XML中存储复杂数据.
转换的时候,将三个byte的数据,先后放入一个24bit的缓冲区中,先来的byte占高位。数据不足3byte的话,于缓冲区中剩下的bit用0补足。然后,每次取出6(因为)个bit,按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/
中的字符作为编码后的输出。不断进行,直到全部输入数据转换完成。
如果最后剩下两个输入数据,在编码结果后加1个“=”;如果最后剩下一个输入数据,编码结果后加2个“=”;如果没有剩下任何数据,就什么都不要加,这样才可以保证资料还原的正确性。
base64编码规则
用例子来说明总是更好理解一些,我们先以3个字节的情况为例:
源字符串为“123”,对应的16进制:0x31 0x32 0x33,2进制为:
00110001 00110010 00110011
base64就是要将这3*8个bits的数据转为4*8的数据,转换规则:
将这24个bits排成一列,每次取6个,在前面补00
00110001 00110010 00110011
因此00110001 00110010 00110011 转化为:
00001100
00010011
00001000
00110011
分别对应十进制里的: 12 19 8 51,对照下编码表里即为MTIz.
可以看到如果源字符串长度是3的倍数,那么按照上面的规则肯定没问题了。如果不是呢?
好了,再来看下特殊情况,如果源字符串长度余3后为1或者2呢?
很容易,如果是转换的时候,本身凑不够6个bits(后面没有字节,字符串长度不够),那么空位上补0即可。
如果是1,空余的字节处补两个’=’,即两个padding。如果是2,空余的字节处补一个’=’,即一个padding。
我的实现代码,有需要改进的地方请指出:
#include <stdio.h> #include <string.h> /*base64编码表 */ char base64Alphabet[]= {'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P', 'Q','R','S','T','U','V','W','X','Y','Z','a','b','c','d','e','f', 'g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v', 'w','x','y','z','0','1','2','3','4','5','6','7','8','9','+','/','='}; /** * @author [email protected] * @brief base64Encode :根据传入字符串返回base64编码后的值 * * @param source: 原字符串 * @param sourceLength: 原字符串长度 * * @return: base64编码后的字符串 */ unsigned char* base64Encode(const char* source, const int sourceLength) { /*命名为padding不准确,不过先不改了^_^*/ unsigned int padding = sourceLength%3; unsigned int resultLength = sourceLength%3 ? ((sourceLength)/3 + 1)*4 : (sourceLength)/3*4; unsigned int i=0, j=0; unsigned char* result = (unsigned char*)malloc(resultLength + 1); memset(result, 0, resultLength+1); unsigned char temp = 0; for (i=0,j=0; i<sourceLength; i+=3, j+=4) { if (i+2 >= sourceLength) { result[j] = (source[i]>>2) & 0x3F; if (padding==1) { //这里padding实际为2 result[j+1] = ((source[i] & 0x03)<<4 ) & 0x3F; result[j+2] = 0x40; result[j+3] = 0x40; break; } else if (padding==2) { //这里padding实际为1 result[j+1] = (((source[i] & 0x03)<<4) | ((source[i+1]>>4) & 0x0F)); result[j+2] = ((source[i+1] & 0x0f)<<2) & 0x3F; result[j+3] = 0x40; break; } } result[j] = (source[i]>>2) & 0x3F;//最高两位要变为0 result[j+1] = (((source[i] & 0x03)<<4) | ((source[i+1]>>4) & 0x0F));//0x03(只取最低两位,其余位为0) 0x0F(只取低四位,其余位为0) result[j+2] = (((source[i+1] & 0x0f)<<2) | ((source[i+2]>>6) & 0x03)); result[j+3] = (source[i+2] & 0x3F); } for ( j=0; j<resultLength; ++j) { result[j] = base64Alphabet[result[j]]; } return result; } int main(int argc, char* argv[]) { printf("%s\n", base64Encode(argv[1], strlen(argv[1]))); //忘了free了... return 0; }