GBK:通常简称 GB (“国标”汉语拼音首字母),GBK 包含全部中文字符。
UTF-8 :是一种国际化的编码方式,包含了世界上大部分的语种文字(简体中文字、繁体中文字、英文、日文、韩文等语言),也兼容 ASCII 码。UTF-8 则包含全世界所有国家需要用到的字符。
这两种编码方式的的作用就是,在不同的应用环境中使用特定的编码方式
如果输入字符编码是UTF-8,如果想要将信息转换为汉字呈现在显示器上,就必须进行GBK转码操作,才能在显示屏上看到信息;
如果输入字符编码是GBK,如果想要在系统操作中让嵌入式设备或者编程环境认知它,就需要进行UTF-8转码操作。
在字符转换的过程中,二者不可以直接进行转换,必须借助于unicode
UTF-8——unicode——GBK
GBK——unicode——UTF-8
因为linux是32位的,所以首先需要引入Winsows.h库,附带引入iconv.h库
#include
#include
#include
#ifdef _WIN32
#include
#else
#include
#endif // _WIN32
using namespace std;
#ifndef _WIN32
static size_t Convert(char* from_cha, char* to_char, char* in, size_t inlen, char* out, size_t outlen)
{
//转换上下文
iconv_t cd;
cd = iconv_open(to_char, from_cha);
if (cd == 0)
{
return -1;
}
memset(out, 0, outlen);
char** pin = ∈
char** pout = &out;
//返回转换字节数的数量,但是转GBK的时候经常不正确 >=0就是成功
size_t re = iconv(cd, pin, &inlen, pout, &outlen);
if (cd != 0)
{
iconv_close(cd);
}
cout << "re=" <<(int) re << endl;
return re;
}
iconv库——linux的转换字符编码库
iconv_open()——作用:从字符编码from_char转换为to_char
iconv_open(to_char, from_cha);
iconv_close():—— 关闭参数所指定的转换描述符
iconv_close(cd);
memset库——memset是C库函数
memset(out, 0, outlen);
现在格式是UTF8,即CP_UTF8.
int len = MultiByteToWideChar(CP_UTF8, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
将数据写进去,将数据强转为wchar_t类型,适用于windows和linux。
MultiByteToWideChar(CP_UTF8, 0, data, -1, (wchar_t*)udata.data(), len);
现在格式转成GBK,即CP_ACP。和UTF-8的参数数量不一样哦
len = WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
utf8.resize(len);
WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, (char*)utf8.data(), len, 0, 0);
其他都是一样的,只不过加了
#ifdef _WIN32
......
.....
#else
//linux
re.resize(1024);
int inlen = strlen(data);
cout << "inlen=" << inlen << endl;
Convert((char*)"utf-8", (char*)"gbk", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
#endif
string UTF8ToGBK2(const char* data)
{
string re = "";
//1、UTF8 先要转为unicode windows utf16
#ifdef _WIN32
//1.1 统计转换后的字节数
int len = MultiByteToWideChar(CP_UTF8, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
if (len <= 0)
{
return re;
}
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
//开始写进去
MultiByteToWideChar(CP_UTF8, 0, data, -1, (wchar_t*)udata.data(), len);
//2 unicode 转 GBK 转成unicode
len = WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
if (len <= 0)
{
return re;
}
re.resize(len);
WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, (char*)re.data(), len, 0, 0);
#else
re.resize(1024);
int inlen = strlen(data);
cout << "inlen=" << inlen << endl;
Convert((char*)"utf-8", (char*)"gbk", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
return re;
}
//1.1 统计转换后的字节数
int len = MultiByteToWideChar(CP_ACP, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
//开始写进去
MultiByteToWideChar(CP_ACP, 0, data, -1, (wchar_t*)udata.data(), len);
//2 unicode 转 utf8
len = WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
GBK.resize(len);
WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, (char*)GBK.data(), len, 0, 0);
其他都是一样的,只不过加了
#ifdef _WIN32
.....
.....
#else
//linux
re.resize(1024);
int inlen = strlen(data);
Convert((char*)"gbk", (char*)"utf-8", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
string GBKToUTF82(const char* data)
{
string re = "";
#ifdef _WIN32
//1、GBK转unicode
//1.1 统计转换后的字节数
int len = MultiByteToWideChar(CP_ACP, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
if (len <= 0)
{
return re;
}
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
//开始写进去
MultiByteToWideChar(CP_ACP, 0, data, -1, (wchar_t*)udata.data(), len);
//2 unicode 转 utf8 转成unicode
len = WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
if (len <= 0)
{
return re;
}
re.resize(len);
WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, (char*)re.data(), len, 0, 0);
#else
re.resize(1024);
int inlen = strlen(data);
Convert((char*)"gbk", (char*)"utf-8", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
return re;
}
mkdir test_GBK_UTF-8
cd test_GBK_UTF-8
vim test_GBK_UTF-8.cpp
将刚才代码放进去,按下esc键盘+输入 :wq (有一个:呦),回车
//g++就是运行环境是C++
g++ test_GBK_UTF-8.cpp -o test_GBK_UTF-8
./test_GBK_UTF-8
如果不转码,会输出乱码
//GBK转utf-8
#include
#include
#include
#ifdef _WIN32
#include
#else
#include
#endif // _WIN32
using namespace std;
#ifndef _WIN32
static size_t Convert(char* from_cha, char* to_char, char* in, size_t inlen, char* out, size_t outlen)
{
//转换上下文
iconv_t cd;
cd = iconv_open(to_char, from_cha);
if (cd == 0)
{
return -1;
}
memset(out, 0, outlen);
char** pin = ∈
char** pout = &out;
//返回转换字节数的数量,但是转GBK的时候经常不正确 >=0就是成功
size_t re = iconv(cd, pin, &inlen, pout, &outlen);
if (cd != 0)
{
iconv_close(cd);
}
cout << "re=" <<(int) re << endl;
return re;
}
#endif // !_WIN32
string UTF8ToGBK(const char* data)
{
string re = "";
//1、UTF8 先要转为unicode windows utf16
#ifdef _WIN32
//1.1 统计转换后的字节数
int len = MultiByteToWideChar(CP_UTF8, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
if (len <= 0)
{
return re;
}
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
//开始写进去
MultiByteToWideChar(CP_UTF8, 0, data, -1, (wchar_t*)udata.data(), len);
//2 unicode 转 GBK 转成unicode
len = WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
if (len <= 0)
{
return re;
}
re.resize(len);
WideCharToMultiByte(CP_ACP, 0, (wchar_t*)udata.data(), -1, (char*)re.data(), len, 0, 0);
#else
re.resize(1024);
int inlen = strlen(data);
cout << "inlen=" << inlen << endl;
Convert((char*)"utf-8", (char*)"gbk", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
return re;
}
string GBKToUTF8(const char* data)
{
string re = "";
#ifdef _WIN32
//1、GBK转unicode
//1.1 统计转换后的字节数
int len = MultiByteToWideChar(CP_ACP, //转换的格式
0, //默认的转换方式
data, //输入的字节
-1, //输入的字符串大小 -1找\0结束 自己去算
0, //输出(不输出,统计转换后的字节数)
0 //输出的空间大小
);
if (len <= 0)
{
return re;
}
wstring udata; //用wstring存储的
udata.resize(len);//分配大小
//开始写进去
MultiByteToWideChar(CP_ACP, 0, data, -1, (wchar_t*)udata.data(), len);
//2 unicode 转 utf8 转成unicode
len = WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, 0, 0,
0, //失败替代默认字符
0 //是否使用默认替代 0 false
);
if (len <= 0)
{
return re;
}
re.resize(len);
WideCharToMultiByte(CP_UTF8, 0, (wchar_t*)udata.data(), -1, (char*)re.data(), len, 0, 0);
#else
re.resize(1024);
int inlen = strlen(data);
Convert((char*)"gbk", (char*)"utf-8", (char*)data, inlen, (char*)re.data(), re.size());
int outlen = strlen(re.data());
re.resize(outlen);
#endif
return re;
return re;
}
int main()
{
std::cout << "Hello World! 测试\n";
//1、测试utf-8转GBK
//cout << UTF8ToGBK(u8"测试UTF-8转GBK") << endl;
string in = u8"测试UTF-8转GBK";
cout << "输入 utf=" << in << endl;
string gbk = UTF8ToGBK2(in.c_str());
cout << "gbk=" << gbk << endl;
cout << GBKToUTF82(gbk.c_str()) << endl;
system("pause");
return 0;
}