Windows CRT 是不支持 UTF-8 编码作为 locale 的,运行时使用 setlocale(LC_ALL, ".65001") 会失败。
使用 Linux 和 Cygwin 的 glibc 时,要在终端显示正确的中文,需满足以下条件:
-
不要混用 char 和 wchar_t 版本的流操作函数,否则会导致这些函数运行异常,我用Cygwin GCC 4测试混用 printf() 和 wprintf() 时,程序甚至崩掉,所以要将上面程序中 printf() 语句全注释掉才行。Window CRT 的实现则没有这个问题。
-
运行环境的 locale 设置要和程序中 setlocale() 设定的 locale 一致,比如:终端的活动字符集、环境变量(一般用 LANG),要设置为 *.UTF-8,才能显示 setlocale(LC_ALL, "zh_CN.UTF-8") 设定的 wchar_t 的中文字符。
-
用 GCC 编译时,要使用 UTF-8 编码保存源文件,这是 GCC 在编译时,将 wchar_t 文字量(以 L 打头)正确转换为 UCS 编码保存在对象文件中的必需条件,用 Native ANSI 编码(比如:GBK)有 wchar_t 文字量的源文件时,GCC 会编译出错,Linux 和 Cygwin 的 GCC 都有这个约束。另外在 Linux GCC 使用 UCS-4 编码保存 wchar_t,而 Windows 和 Cygwin GCC 使用 UCS-2。
-
用 wprintf() 时,要用 %ls 表示 wchar_t 的字符串,用 %s 表示 char 的字符串,具体参考:man 3 wprintf,而 Windows 的实现用 %ls、%s 都可以正确输出 wchar_t 字符串。
////////////////////////////////////////////////////////////////////
今天遇到个编码转换的问题,需要把unicode编码转换为多字节(这里是GB),对函数wcstombs()的使用总是出问题,想起sunshine师兄写的关于多字节转unicode时对函数mbstowcs()的使用(wcstombs()函数的兄弟~),所以决定找unicode的代码页,但是只找到了UTF7和UTF8的代码页,无奈之下只好搜网上对wcstombs的使用了,发现wcstombs和mbstowcs的使用并不完全一样,在unicode到多字符的转换过程中,需要指明多字符的代码页,并不像我原来想的那样"需要指明前面一个一个字符集的代码页"。
使用如下:(unicode 到GB)
setlocale(LC_ALL, ".936");
wcstombs(char * to,wchar_t * from,size_t _maxCount);//
后来想想,多字节有很多种,而款字节只有unicode,所以不论是从"宽"到"多"还是从"多"到"宽",需要指明的都是"多"。
/////////////////////////////////////////////////////////
Linux下面的没有命名为 WideCharToMultiByte() 和 MultiByteToWideChar() 函数,WideCharToMultiByte,MultiByteToWideChar是windows下的函数,在linux下也有类似的两个函数:
mbstowcs()
wcstombs()
值得注意的是:
size_t mbstowcs(wchar_t *wcstr,const char *mbstr,size_t count);
这个函数的第三个参数count,大小一定要是mbstr长度的2倍,否则出来的中文也会是乱码。
测试一下:
setlocale(LC_ALL,"zh_CN.GB18030");
wchar_t wcstr[20] = L"字符测试123abc";
int len = wcslen(wcstr)+1;
printf("len = %d /n",len);
for(int i = 0; i < len; i++)
printf("0x%08x ",wcstr[i]);
printf("/n");
char str[55] = {0};
int n = wcstombs(str,wcstr,55);
if(-1 == n)
{
perror("wcstombs ");
exit(-1);
}
printf("n = %d/n",n);
for(int i = 0; i < n+1; i++)
printf("0x%08x ",str[i]);
printf("/n");
wchar_t wch[50]={0};
int m = mbstowcs(wch,str,n);
if(m == -1)
{
perror("Converting");
exit(-1);
}
printf("m = %d/n",m);
for(int i =0; i
printf("/n");
return 0;
}
还有呢,转码还可以使iconv函数族,包含以下三个函数:
iconv_t iconv_open(const char *tocode, const char *fromcode);
size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);
int iconv_close(iconv_t cd);
测试一下:
#include
#include
#include
#define BUFLEN 256
char outbuf[BUFLEN];
char inbuf[BUFLEN] = "characters convertion";
int main()
{
char *pin = inbuf;
char *pout = outbuf;
int inlen = strlen(pin);
int outlen = BUFLEN;
int retsize;
iconv_t cd;
cd = iconv_open("UTF-8", "GBK");
if((iconv_t)-1 == cd) {
perror("iconv_open error");
return -1;
}
retsize = iconv(cd, &pin, (size_t *)&inlen, &pout, (size_t *)&outlen);
if((size_t)-1 == retsize) {
perror("iconv error");
return -2;
}
if(outlen > 0) {
printf("%s/n", outbuf);
}
iconv_close(cd);
return 0;
}
另外
关于Linux下转码的资料,这里比较全:
http://www.360doc.com/content/11/0119/14/1317564_87612492.shtml
仔细读,所有的问题基本都可以找到答案