最近一直疑惑于C++中对于字符串存储相关的问题,经过深入研究,现做如下探讨,有错误之处,请留言。
#include
#include
using namespace std;
int main()
{
char nameChar[] = "This is a char array";
wchar_t nameWchar[] = L"This is a wchar array";
char16_t nameChar16[] = u"This is a char16 array";
char32_t nameChar32[] = U"This is a char32 array";
cin.get();
}
#include
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X",name[i]);
cout << " ";
}
cout << endl;
cin.get();
}
输出结果为:
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
如上图可以看出wchar 是按Unicode编码方式进行存储的。
#include
#include
using namespace std;
int main()
{
char name[] = "我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", uint8_t(name[i]));
cout << " ";
}
cout << endl;
cout << name << endl;
cin.get();
}
输出结果:
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
可见,存储的编码方式为本机的默认编码方式,中文操作系统为GBK。通过 cout 可以正常输出,输出窗口的默认解码方式同系统默认相同。
我们用如下代码进行输出:
#include
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
wcout << name << endl;
cin.get();
}
输出结果:
我们可以看到wcout 并不能很好的显示中文,这与wchar_t 存储为unicode 编码,但是控制台要求中文GBK编码,unicode 编码字符再以GBK方式显示时出现错误。
2. 代码文件的存储编码方式是否会影响中文字符串常量。
我们以如下代码为例:
#include
using namespace std;
int main()
{
char nameChar[] = "我爱学习";
for (size_t i = 0; i < sizeof(nameChar); i++)
{
printf("%X", uint8_t(nameChar[i]));
cout << " ";
}
cout << endl;
cout << nameChar << endl;
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
cin.get();
}
Unicode 编码存储输出结果:
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
我们以GB2312的方式进行存储输出结果
CE D2 B0 AE D1 A7 CF B0 0
我爱学习
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
可见以上的输出结果相同,据此我们可以得出结论,只要显示不会输出乱码,编译后的存储结果是相同的,与代码文件的存储编码方式无关。
将Unicode 编码转为GBK编码
告知wcout 输出编码为中文
#include
using namespace std;
int main()
{
wchar_t name[] = L"我爱学习";
for (size_t i = 0; i < sizeof(name); i++)
{
printf("%X", name[i]);
cout << " ";
}
cout << endl;
wcout.imbue(std::locale("chs"));
wcout << name;
cout << endl;
cin.get();
}
输出结果:
6211 7231 5B66 4E60 0 CCCC CCCC CCCC CCCC CCCC
我爱学习