linux c 字符串编码转换,C/C++ 字符串的编码

C/C++ 字符串的编码

字符串的编码需从两个方面考虑

1. 在源文件中存储时的编码

2. 在内存(运行时)和可执行文件中的编码

字符串在源文件中存储时的编码

此时的编码依赖于源文件的编码。比如源文件的编码是utf-8,那么这个字符串在文件中的编码就是utf-8。

源文件编码

字符串编码

utf-8

utf-8

ucs-16/32

ucs-16/32

gb2312

gb2312

......

......

字符串在内存(运行时)和可执行文件中的编码

分两种情况,使用 L 修饰符和不用 L 修饰符

使用 wchar_t 类型和 L 修饰符

const wchar_t wstring = L"你好,ABC!!!";

cout<

此时字符串 wsting 在内存中的编码依赖编译器的具体实现,可能是ucs16也可能是ucs32

输出:

Windows平台: wchar_t size: 2

Linux平台: wchar_t size: 4

使用 char 类型不用 L 修饰符,

const char * string = "你好,ABC!!!";

此时字符串string 在内存中以字节流的形式存在,其编码和在源文件中存储时的编码一致(编译器支持该编码)。

小结

在使用 char 类型时,如果想在运行时使用某种编码,源文件的编码最好和其一致,不然就要进行编码转化了,增加了额外的运算量。

使用 wchar_t 类型时,需同时使用 L 修饰符,其在运行时的编码类型固定为 ucs16/32,源文件的编码类型不会影响到运行时的编码类型。

例如

// 一个汉字

char *str = "你";

char *wstr = L"你";

cout<

cout<

输出

在源文件编码为 utf-8 时:

len1:3

len2:1

在源文件编码为gb2312时:

len1:2

len2:1

字符串编码的转换

呵呵,这是另外一个话题了。。。

你可能感兴趣的:(linux,c,字符串编码转换)