string,wstring,u16string,u32string相互转换

目录

1.各种编码格式 

参考:


针对C++中文会乱码的问题

1.各种编码格式 

  • 中文操作系统默认ansi编码

不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。

ANSI编码表示英文字符时用一个字节,表示中文用两个或四个字节。

  • unicode是国际通用编码

每个字母或汉字都是两个字节

  • utf-8编码是unicode编码在网络之间(主要是网页)传输时的一种“变通”和“桥梁”编码。

英文字母为一个字节,中文为三个字节,处理中文很不方便,将string转为u16string则每个字母或汉字为两个字节,处理起来比较方便。

  •  
#include 
#include 
#include 
#include 
 
std::u16string to_utf16( std::string str ) // utf-8 to utf16
{ return std::wstring_convert< std::codecvt_utf8_utf16, char16_t >{}.from_bytes(str); }
 
std::string to_utf8( std::u16string str16 )
{ return std::wstring_convert< std::codecvt_utf8_utf16, char16_t >{}.to_bytes(str16); }
 
std::u32string to_utf32( std::string str )
{ return std::wstring_convert< std::codecvt_utf8, char32_t >{}.from_bytes(str); }
 
std::string to_utf8( std::u32string str32 )
{ return std::wstring_convert< std::codecvt_utf8, char32_t >{}.to_bytes(str32); }
 
std::wstring to_wchar_t( std::string str )
{ return std::wstring_convert< std::codecvt_utf8, wchar_t >{}.from_bytes(str); }
 
std::string to_utf8( std::wstring wstr )
{ return std::wstring_convert< std::codecvt_utf8, wchar_t >{}.to_bytes(wstr); }
 
int main()
{
    const std::string utf8 = "hello world!\n" ;
 
    const std::u16string utf16 = to_utf16( utf8 ) ;
    std::cout << to_utf8(utf16) ;
 
    const std::u32string utf32 = to_utf32( utf8 ) ;
    std::cout << to_utf8(utf32) ;
    
    const std::wstring wstr = to_wchar_t(utf8) ;
    std::wcout << wstr ;
    std::cout << to_utf8(wstr) << "---------------------\n" ;
}

参考:

  1. https://blog.csdn.net/forest_fire/article/details/81011090
  2. https://blog.csdn.net/weixin_34396103/article/details/92366595

你可能感兴趣的:(杂)