JavaScript(ES6标准)处理占多个字节的汉字

写这篇文章的动机是看到了这篇博客：CVTE前端开发在线笔试-2017.9.14

其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字，则汉字长度按2计算。假设str为‘我ABC汗DEF’，当len为4时应输出‘我AB’，当len为6时输出‘我ABC’

我们都知道JS支持Unicode编码，答案中判断中文的方式是，遍历字符串，用str[i]获取字符，用正则表达式（如下）检验字符。

 /[^\u4E00-\u9FA5]/

这个正则的含义是匹配不在这个范围内的中文字符，如果是汉字，返回false，如果不是汉字，返回true。

因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下，上面的方法是不会出错的，能够正确识别到字符串中的汉字。

当然特殊情况下就会出现问题了。

我来引出今天的主角 ''，首先我们得确定的是，它是一个汉字。点这里可以看对它的解释。

''的Unicode编码是 \u20BB7，这意味着，上面的正则表达式并不能检测出这个汉字：

const re =  /[^\u4E00-\u9FA5]/
console.log(re.test(''))//true 表示这个不是汉字

出现问题的原因在于, Unicode编码中 \u4E00-\u9FA5 表示基本汉字,是Unicode1.0标准的,而Unicode在之后扩展加入了许多新的汉字，''属于Unicode 3.1版引进的“扩展B区汉字”。Unicode目前已经发展到11.0版本，扩展也到了F：

字符集	字数	Unicode 编码
基本汉字	20902字	4E00-9FA5
基本汉字补充	74字	9FA6-9FEF
扩展A	6582字	3400-4DB5
扩展B	42711字	20000-2A6D6
扩展C	4149字	2A700-2B734
扩展D	222字	2B740-2B81D
扩展E	5762字	2B820-2CEA1
扩展F	7473字	2CEB0-2EBE0

所以钻牛角尖地想，要完整地匹配目前Unicode中所有的汉字，特别是Unicode编码超过一个字节的汉字,需要换种方式。

这里我没找到正则表达式匹配扩展B到F字符的方法，只能用笨办法，写个函数来判断：

/**
 * 判断传入字符串是否是汉字
 * @param {string} str
 * @returns {boolean}
 */
function isChineseCharacter(str) {
    if(Object.prototype.toString.call(str) !== '[object String]' ) {
        return false
    }
    //只允许传入一个字符
    let flag=true
    for (const i of str) {
        if(flag) {
            flag=false
        }else {
            return false
        }
    }
    const testCases=[
        ['\u4E00','\u9FEF'],//基本汉字&基本汉字补充
        ['\u3400','\u4DB5'],//扩展A
        ['\u{20000}','\u{2A6D6}'],//扩展B
        ['\u{2A700}','\u{2B734}'],//扩展C
        ['\u{2B740}','\u{2B81D}'],//扩展D
        ['\u{2B820}','\u{2CEA1}'],//扩展E
        ['\u{2CEB0}','\u{2EBE0}']//扩展F
    ]
    for (const t of testCases){
        if(t[0]<=str&&t[1]>=str){
            return true
        }
    }
    return false
}

这样就可以正确判断''了:

isChineseCharacter('汉') //true
isChineseCharacter('') //true
isChineseCharacter('0')  //false

现在判断汉字是没问题了，但还是存在另一个问题，就是遍历字符串的问题，遍历字符串看起来简单，但面对''这样的汉字，传统的方法可能会出现问题：

function log(str) {
    for(let i =0;i

 
 这是因为,JavaScript 允许采用\uxxxx形式表示一个字符，其中xxxx表示字符的 Unicode 码点。而''的Unicode编码是\u20BB7,超过了\u0000~\uFFFF这个范围。由于utf-8编码是变长的，所以需要用两个码点来表示''。 
 console.log('汉'.length)//1
console.log(''.length)//2
 
 for循环会认为''包含两个字符（都不可打印），而for...of循环会正确识别出这''。
 如果一个字符串中含有由多个码点来表示的字符，遍历字符串的方式需要改进： 
 function log(str) {
    for(const char of str){
        console.log(char)
    }
}
log('汉') //汉
log('') //
 
 至此,关于JavaScript(ES6标准)处理占多个字节的汉字的知识整理完毕。 
 参考： 
  
  Unicode - 维基百科 
  字符串的扩展 - 阮一峰

JavaScript(ES6标准)处理占多个字节的汉字

你可能感兴趣的:(JavaScript(ES6标准)处理占多个字节的汉字)