对于Windows平台下的开发而言,字符串的转换本不应成为问题,MS都已做好了现成的API,只需简单调用就OK了。但是,论坛上还是有朋友不断的询问如果在各编码集间进行字符串的转换,也不断的有“高手”走出来解惑,甚至还贴出整页的山寨版转换代码,不看还好,越看越迷惑,越看越偏离正确的方向。
首先,需明确:在此讨论的字符集为ANSI和Unicode。GB2312汉字编码隶属于ANSI,数字及字母占一个字节,汉字占两个字节,其特征是信息元非定长;而Unicode(Universal Character Set 通用字符集)则不论是数字、字母还是汉字或其他语言的字符,都统统使用固定长度来表示一个字符,UCS-2使用两个字节来表示一个字符,UCS-4则使用4个字节表示一个字符。那么UTF-8是什么字符集呢?UTF即Unicode Transformation Format,也就是针对Unicode的传输编码方式(并非是另一种与Unicode或ANSI相对的字符集),从这个意义上说UTF-8自然该隶属于Unicode,换句话说,UTF是一种对Unicode字符集的表现形式或者说是Unicode的一种实现方式。UTF又可细分为:UTF-8、UTF-16、UTF-32,它们之间的区在于最小信息单元的长度,长度依次为单字节、双字节、四字节。
在Windows平台下,用MultiByteToWideChar和WideCharToMultiByte这两个函数就能实现字符串格式间的互相转换。在此用“字符格式”这样模糊的词汇,而没有说“字符串编码”,主要是因为UTF-8实在算不上是“字符集”,仅仅是Unicode的一种表现形式而已。按照字符串在Windows系统中的存储方式,可以分为MultiByte和WideChar(可能没有这种说法,为了与函数名对应,偷个懒)。MultiByte,望文生义,就是用多字节串来存储字符串。在MultiByte字符串包含一个字节长的字符,也包含多字节长的字符,因此ANSI和UTF都应归于此类。呵呵,有点晕吧?先忘掉ANSI和Unicode,接下来再说WideChar。WideChar即宽字符,在Windows下固定用两个字节来表示一个字符,可以简单的与Unicode中的UCS-2对应起来。MultiByteToWideChar和WideCharToMultiByte函数的视角是字符串的表达方式,而不是字符的编码方式,因此ANSI和UTF-8可以被归到MultiByte类型中。
int MultiByteToWideChar( UINT CodePage, // code page DWORD dwFlags, // character-type options LPCSTR lpMultiByteStr, // string to map int cbMultiByte, // number of bytes in string LPWSTR lpWideCharStr, // wide-character buffer int cchWideChar // size of buffer );
int WideCharToMultiByte( UINT CodePage, // code page DWORD dwFlags, // performance and mapping flags LPCWSTR lpWideCharStr, // wide-character string int cchWideChar, // number of chars in string LPSTR lpMultiByteStr, // buffer for new string int cbMultiByte, // size of buffer LPCSTR lpDefaultChar, // default for unmappable chars LPBOOL lpUsedDefaultChar // set when default char used );
该函数的定义非常明了,使用也非常简单。以Unicode为中介可以实现GB2312与UTF-8的互相转换。用代码说话:
char *psz = "78好87"; //psz={37 38 BA C3 38 37 00}
char buf[1024], buf2[1024];
MultiByteToWideChar(CP_ACP, 0, psz, -1, (unsigned short *)buf, 1024); //将ANSI字符串转换为Unicode,buf[]={37 00 38 00 7D 59 38 00 37 00 00 00}
WideCharToMultiByte (CP_UTF8, 0, (unsigned short *)buf, -1, buf2, 1024, NULL, NULL); //将Unicode转换为utf8,buf2[]={37 38 E5 A5 BD 38 37 00}
MultiByteToWideChar(CP_UTF8, 0, buf2, -1, (unsigned short *)buf, 1024); //将utf8转换为Unicode, buf[]={37 00 38 00 7D 59 38 00 37 00 00 00}
WideCharToMultiByte (CP_ACP, 0, (unsigned short *)buf, -1, buf2, 1024, NULL, NULL); //将Unicode转换为ANSI, buf2[]={37 38 BA C3 38 37 00}