C++ Unicode、Utf8、GBK编码之间转换

        C++标准库从C++11开始提供了std::codecvt_utf8和std::codecvt_byname两个转换器来完成编码转换,其中std::codecvt_utf8用于 utf8编码与unicode之间的转换,GBK与unicode之间的转换则需要通过std::codecvt_byname 来完成,并需要指定locale_name参数,此参数windows与linux下并不相同。

在windows下取值:

标准:

zh_CN

.936

Chinese_China.936

非标准:

chs
Chinese-simplified
Chinese
ZHI

linux下取值:

zh_CN.GBK
zh_CN.GB2312
zh_CN.GB18030

这里提供了几个封装的转换函数:

Encode.h

#pragma once
#include 
#include 

class codecvt_gbk : public std::codecvt_byname
{
public:
    codecvt_gbk()
#ifdef WINDOWS
        :codecvt_byname("zh_CN")
#else
        : codecvt_byname("zh_CN.GBK")
#endif
    {
    }
};


std::wstring GbkToUnicode(const std::string& str);
std::string UnicodeToGbk(const std::wstring& str);
std::wstring Utf8ToUnicode(const std::string& str);
std::string UnicodeToUtf8(const std::wstring& str);
std::string GbkToUtf8(const std::string& str);
std::string Utf8ToGbk(const std::string& str);

Encode.cpp

#include "Encode.h"
#include 
#include 


static std::wstring_convert s_GbkConvert;
static std::wstring_convert> s_Utf8Convert;

std::wstring GbkToUnicode(const std::string& str)
{
    return s_GbkConvert.from_bytes(str);
}
std::string UnicodeToGbk(const std::wstring& str)
{
    return s_GbkConvert.to_bytes(str);
}
std::wstring Utf8ToUnicode(const std::string& str)
{
    return s_Utf8Convert.from_bytes(str);
}
std::string UnicodeToUtf8(const std::wstring& str)
{
    return s_Utf8Convert.to_bytes(str);
}
std::string GbkToUtf8(const std::string& str)
{
    return s_Utf8Convert.to_bytes(s_GbkConvert.from_bytes(str));
}
std::string Utf8ToGbk(const std::string& str)
{
    return s_GbkConvert.to_bytes(s_Utf8Convert.from_bytes(str));
}

main.cpp

#include 
#include "Encode.h"

using namespace std;


void PrintString(u8string str)
{
    for (auto it = str.begin(); it != str.end(); ++it)
    {
        printf("%02X", *it);
    }
    printf("\n\n");
}
void PrintString(string str)
{
    for (auto it = str.begin(); it != str.end(); ++it)
    {
        printf("%02X", (char8_t)*it);
    }
    printf("\n\n");
}
void PrintWstring(wstring wstr)
{
    for (auto it = wstr.begin(); it != wstr.end(); ++it)
    {
        printf("%04X", *it);
    }
    printf("\n\n");
}


int main()
{
    string str = "中信建投国家电投新能源REIT";
    auto ustr = GbkToUtf8(str);

    u8string ustr2 = u8"中信建投国家电投新能源REIT";
    auto str2 = Utf8ToGbk((char*)ustr2.c_str());


    cout << str << endl;
    cout << str2 << endl;
    cout << (char*)ustr.c_str() << endl;
    cout << (char*)ustr2.c_str() << endl;


    PrintString(str);
    PrintString(str2);
    PrintString(ustr);
    PrintString(ustr2);

    return 0;
}

运行结果:

中信建投国家电投新能源REIT
中信建投国家电投新能源REIT
涓俊寤烘姇鍥藉鐢垫姇鏂拌兘婧怰EIT
涓俊寤烘姇鍥藉鐢垫姇鏂拌兘婧怰EIT
D6D0D0C5BDA8CDB6B9FABCD2B5E7CDB6D0C2C4DCD4B452454954

D6D0D0C5BDA8CDB6B9FABCD2B5E7CDB6D0C2C4DCD4B452454954

E4B8ADE4BFA1E5BBBAE68A95E59BBDE5AEB6E794B5E68A95E696B0E883BDE6BA9052454954

E4B8ADE4BFA1E5BBBAE68A95E59BBDE5AEB6E794B5E68A95E696B0E883BDE6BA9052454954

你可能感兴趣的:(紫云的程序人生,C++,c++,字符编码转换)