常见Unicode编码范围

常见Unicode编码范围

经常我们会用到判断某个字符或者字符串是否包含中文,英文,特殊符号等等。这时候可以通过判断Unicode所在区间来确定某个字符所处类型。当然可以通过直接判断Unicode码,但是鉴于习惯,以下提供的是Unicode码对应的数字区间。毕竟字符的本质也就是通过二进制进行存储编码的而已。

  • 汉字:[0x4e00,0x9fa5](或十进制[19968,40869])
  • 数字:[0x30,0x39](或十进制[48, 57])
  • 小写字母:[0x61,0x7a](或十进制[97, 122])
  • 大写字母:[0x41,0x5a](或十进制[65, 90])
  • 其他:除上所有

例如:

/**
 * 是否包含汉字
 */
fun String.isContainChinese(): Boolean {
    this.forEach {
        val c = it.toInt()
        if (c in 19968..40868) {
            return true
        }
    }
    return false
}

【转载】Unicode和ASCII的区别

你可能感兴趣的:(字符,编码,编程基础)