C++编码转换整理

Windows CRT 是不支持 UTF-8 编码作为 locale 的,运行时使用 setlocale(LC_ALL, ".65001") 会失败。

使用 Linux 和 Cygwin 的 glibc 时,要在终端显示正确的中文,需满足以下条件:

  1. 不要混用 char 和 wchar_t 版本的流操作函数,否则会导致这些函数运行异常,我用Cygwin GCC 4测试混用 printf() 和 wprintf() 时,程序甚至崩掉,所以要将上面程序中 printf() 语句全注释掉才行。Window CRT 的实现则没有这个问题。

  2. 运行环境的 locale 设置要和程序中 setlocale() 设定的 locale 一致,比如:终端的活动字符集、环境变量(一般用 LANG),要设置为 *.UTF-8,才能显示 setlocale(LC_ALL, "zh_CN.UTF-8") 设定的 wchar_t 的中文字符。

  3. 用 GCC 编译时,要使用 UTF-8 编码保存源文件,这是 GCC 在编译时,将 wchar_t 文字量(以 L 打头)正确转换为 UCS 编码保存在对象文件中的必需条件,用 Native ANSI 编码(比如:GBK)有 wchar_t 文字量的源文件时,GCC 会编译出错,Linux 和 Cygwin 的 GCC 都有这个约束。另外在 Linux GCC 使用 UCS-4 编码保存 wchar_t,而 Windows 和 Cygwin GCC 使用 UCS-2。

  4. 用 wprintf() 时,要用 %ls 表示 wchar_t 的字符串,用 %s 表示 char 的字符串,具体参考:man 3 wprintf,而 Windows 的实现用 %ls、%s 都可以正确输出 wchar_t 字符串。

 

////////////////////////////////////////////////////////////////////

今天遇到个编码转换的问题,需要把unicode编码转换为多字节(这里是GB),对函数wcstombs()的使用总是出问题,想起sunshine师兄写的关于多字节转unicode时对函数mbstowcs()的使用(wcstombs()函数的兄弟~),所以决定找unicode的代码页,但是只找到了UTF7和UTF8的代码页,无奈之下只好搜网上对wcstombs的使用了,发现wcstombs和mbstowcs的使用并不完全一样,在unicode到多字符的转换过程中,需要指明多字符的代码页,并不像我原来想的那样"需要指明前面一个一个字符集的代码页"。

使用如下:(unicode 到GB)

setlocale(LC_ALL, ".936");
wcstombs(char * to,wchar_t * from,size_t _maxCount);//

后来想想,多字节有很多种,而款字节只有unicode,所以不论是从"宽"到"多"还是从"多"到"宽",需要指明的都是"多"。

 

/////////////////////////////////////////////////////////

 

Linux下面的没有命名为 WideCharToMultiByte() 和 MultiByteToWideChar() 函数,WideCharToMultiByte,MultiByteToWideChar是windows下的函数,在linux下也有类似的两个函数:

mbstowcs()
wcstombs()

值得注意的是:

size_t mbstowcs(wchar_t *wcstr,const char *mbstr,size_t count);

这个函数的第三个参数count,大小一定要是mbstr长度的2倍,否则出来的中文也会是乱码

 

测试一下:

 

    setlocale(LC_ALL,"zh_CN.GB18030");
    wchar_t wcstr[20] = L"字符测试123abc";

    int len = wcslen(wcstr)+1;
    printf("len = %d /n",len);
    for(int i = 0; i < len; i++)
        printf("0x%08x ",wcstr[i]);
    printf("/n");

    char str[55] = {0};   
    int n = wcstombs(str,wcstr,55);
    if(-1 == n)
    {
    perror("wcstombs ");
    exit(-1);
    }   
    printf("n = %d/n",n);
    for(int i = 0; i < n+1; i++)
        printf("0x%08x ",str[i]);
    printf("/n");   
    wchar_t wch[50]={0};
    int m = mbstowcs(wch,str,n);    
    if(m == -1)
    {
    perror("Converting");
    exit(-1);
    }
    printf("m = %d/n",m);
    for(int i =0; i<m+1;i++)
    printf("0x%08x ",wch[i]);
    printf("/n");
    return 0;
}

 

还有呢,转码还可以使iconv函数族,包含以下三个函数:
iconv_t iconv_open(const char *tocode, const char *fromcode);

size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);

int iconv_close(iconv_t cd);

 

 

测试一下:

#include <stdio.h>
#include <iconv.h>
#include <string.h>

#define BUFLEN 256

char outbuf[BUFLEN];
char inbuf[BUFLEN] = "characters convertion";

int main()
{    
     char *pin = inbuf;
     char *pout = outbuf;
       
     int inlen = strlen(pin);
     int outlen = BUFLEN;

     int retsize;

     iconv_t cd;

     cd = iconv_open("UTF-8", "GBK");

     if((iconv_t)-1 == cd) {
             perror("iconv_open error");
             return -1;
     }

     retsize = iconv(cd, &pin, (size_t *)&inlen, &pout, (size_t *)&outlen);

     if((size_t)-1 == retsize) {
             perror("iconv error");
             return -2;   
     }

     if(outlen > 0) {
             printf("%s/n", outbuf);
     }

     iconv_close(cd);

     return 0;
}

 

另外

 

关于Linux下转码的资料,这里比较全:

 

http://www.360doc.com/content/11/0119/14/1317564_87612492.shtml

 

仔细读,所有的问题基本都可以找到答案

你可能感兴趣的:(职场,编码,休闲)