ASCII、Unicode和UTF-8

大多数的字符串算法都是以ASCII码为例的,但在实际开发中,常常要用到UTF-8编码,这时候,需要了解一点两种编码的基础知识,才能正确的运用已有的字符串算法。

标准ASCII码

标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。

ASCII码只是用了7位二进制数,用一个字节表示时,它第一位总是为0。UTF-8就是利用了这一特点,在兼容ASCII码的情况下对ASCII码进行了扩展。

Unicode

如果只表示英文,一个字节是够用的,但要表示世界上所有的文字,必须使用多个字节才行。Unicode就是为了能在计算机中表示所有的文字。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode可以看做是是一本很厚的字典,记录着世界上所有字符对应的一个数字。这个字符的划分通常遵循了一些规律,利用这些规律可以用来匹配特定的字符。如,如果要匹配中文,可以通过中文的开始和结束的编号来匹配。

UTF-8码

UTF-8编码规则:

  • 对于单个字节的字符,第一位设为 0,后面的 7 位对应这个字符的 Unicode 码点。因此,对于英文中的 0 - 127 号字符,与 ASCII 码完全相同。这意味着 ASCII 码那个年代的文档用 UTF-8 编码打开完全没有问题。

  • 对于需要使用 N 个字节来表示的字符(N > 1),第一个字节的前 N 位都设为 1,第 N + 1 位设为0,剩余的 N - 1 个字节的前两位都设位 10,剩下的二进制位则使用这个字符的 Unicode 码点来填充。

从UTF-8的编码规则可以看出,在UTF-8的字符串中,搜索一个英文字符串和一个中文字符串是没有问题的,因为没有重复的部分。

知道了UTF-8的编码规则,可以写一个计算UTF-8的字符数的函数。

#include 
using namespace std;

int utf8Len(const string &s){
    int i = 0;
    int res = 0;
    while(i < s.size()){
        unsigned char c = s[i];
        int j = 0;
        while(j < 8 && (c & 0x80) != 0){ //查找开始的1,连续几个1表示一个字符的编码长度
            j++;
            c <<= 1;
        }
        if(j == 0){ //特殊,如果开始就是0,长度为1个字节
            j = 1;
        }
        if(j > 6){
            cout<<"eror: not a utf-8 code string"<

匹配中文

要匹配中文,只需要看一个字符是否在中文的Unicode码内。但这里最好使用宽字符,直接用Unicode表示,如果用UTF-8有问题。

#include 
using namespace std;

int main(int argc, char const *argv[])
{
    //不这样初始化wcout无法输出中文字符,具体原理还不清楚
    ios::sync_with_stdio(false);
    locale::global(locale(""));
    setlocale(LC_CTYPE, "");
    wcout.imbue(locale(""));

    wstring s1 = L"你好,世界";
    wregex p1(L"[\u4e00-\u9fa5]+"); //中文的起止编号
    wsmatch r1;
    wstring::const_iterator is = s1.begin();
    wstring::const_iterator ie = s1.end();
    while(regex_search(is,ie,r1,p1)){
        wcout<

如果直接使用UTF-8进行匹配,会出现一些奇怪的现象。

#include 
using namespace std;

int main(int argc, char const *argv[])
{
    system("chcp 65001"); //改变命令行的编码
    string s = "你好,世界";
    regex p("[\u4e00-\u9fa5]+");
    smatch r;
    string::const_iterator is = s.begin();
    string::const_iterator ie = s.end();
    while(regex_search(is,ie,r,p)){
        cout<

按我的理解,这种写法是行不通的,因为UTF-8需要解码才能得到Unicode,直接匹配会出错。不清楚正则匹配中\u的实现,但是直接用确实是有问题。要匹配中文,最好还是先处理成Unicode宽字符比较好。

你可能感兴趣的:(ASCII、Unicode和UTF-8)