JavaScript(ES6标准)处理占多个字节的汉字

写这篇文章的动机是看到了这篇博客:CVTE前端开发在线笔试-2017.9.14

其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字,则汉字长度按2计算。假设str为‘我ABC汗DEF’,当len为4时应输出‘我AB’,当len为6时输出‘我ABC’

我们都知道JS支持Unicode编码,答案中判断中文的方式是,遍历字符串,用str[i]获取字符,用正则表达式(如下)检验字符。

 /[^\u4E00-\u9FA5]/

这个正则的含义是匹配不在这个范围内的中文字符,如果是汉字,返回false,如果不是汉字,返回true。

因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下,上面的方法是不会出错的,能够正确识别到字符串中的汉字。

当然特殊情况下就会出现问题了。

我来引出今天的主角 '',首先我们得确定的是,它是一个汉字。点这里可以看对它的解释。

''的Unicode编码是 \u20BB7,这意味着,上面的正则表达式并不能检测出这个汉字:

const re =  /[^\u4E00-\u9FA5]/
console.log(re.test(''))//true 表示这个不是汉字

出现问题的原因在于, Unicode编码中 \u4E00-\u9FA5 表示基本汉字,是Unicode1.0标准的,而Unicode在之后扩展加入了许多新的汉字,''属于Unicode 3.1版引进的“扩展B区汉字”。Unicode目前已经发展到11.0版本,扩展也到了F:

字符集 字数 Unicode 编码
基本汉字 20902字 4E00-9FA5
基本汉字补充 74字 9FA6-9FEF
扩展A 6582字 3400-4DB5
扩展B 42711字 20000-2A6D6
扩展C 4149字 2A700-2B734
扩展D 222字 2B740-2B81D
扩展E 5762字 2B820-2CEA1
扩展F 7473字 2CEB0-2EBE0

所以钻牛角尖地想,要完整地匹配目前Unicode中所有的汉字,特别是Unicode编码超过一个字节的汉字,需要换种方式。

这里我没找到正则表达式匹配扩展B到F字符的方法,只能用笨办法,写个函数来判断:

/**
 * 判断传入字符串是否是汉字
 * @param {string} str
 * @returns {boolean}
 */
function isChineseCharacter(str) {
    if(Object.prototype.toString.call(str) !== '[object String]' ) {
        return false
    }
    //只允许传入一个字符
    let flag=true
    for (const i of str) {
        if(flag) {
            flag=false
        }else {
            return false
        }
    }
    const testCases=[
        ['\u4E00','\u9FEF'],//基本汉字&基本汉字补充
        ['\u3400','\u4DB5'],//扩展A
        ['\u{20000}','\u{2A6D6}'],//扩展B
        ['\u{2A700}','\u{2B734}'],//扩展C
        ['\u{2B740}','\u{2B81D}'],//扩展D
        ['\u{2B820}','\u{2CEA1}'],//扩展E
        ['\u{2CEB0}','\u{2EBE0}']//扩展F
    ]
    for (const t of testCases){
        if(t[0]<=str&&t[1]>=str){
            return true
        }
    }
    return false
}

这样就可以正确判断''了:

isChineseCharacter('汉') //true
isChineseCharacter('') //true
isChineseCharacter('0')  //false

现在判断汉字是没问题了,但还是存在另一个问题,就是遍历字符串的问题,遍历字符串看起来简单,但面对''这样的汉字,传统的方法可能会出现问题:

function log(str) {
    for(let i =0;i

这是因为,JavaScript 允许采用\uxxxx形式表示一个字符,其中xxxx表示字符的 Unicode 码点。而''的Unicode编码是\u20BB7,超过了\u0000~\uFFFF这个范围。由于utf-8编码是变长的,所以需要用两个码点来表示''。

console.log('汉'.length)//1
console.log(''.length)//2

for循环会认为''包含两个字符(都不可打印),而for...of循环会正确识别出这''。
如果一个字符串中含有由多个码点来表示的字符,遍历字符串的方式需要改进:

function log(str) {
    for(const char of str){
        console.log(char)
    }
}
log('汉') //汉
log('') //

至此,关于JavaScript(ES6标准)处理占多个字节的汉字的知识整理完毕。

参考:

  1. Unicode - 维基百科
  2. 字符串的扩展 - 阮一峰

你可能感兴趣的:(JavaScript(ES6标准)处理占多个字节的汉字)