ASCII码使用7位二进制数表示一个字符,共定义了128个字符,包括基本的拉丁字母、数字、标点符号和一些控制字符。每个字符都被赋予一个唯一的数值,这个数值在0到127之间。
Unicode是一个字符编码标准,它为世界上几乎所有的字符分配了唯一的标识符。Unicode字符集包括了各种语言、符号、标点符号、数学符号、技术符号、图形符号等,总计超过130,000个字符。
unicode编码集包含ascii码。
Unicode字符的编码长度是可变的,最短使用16位(两个字节),最长使用32位(四个字节)。
以下是一些Unicode字符的示例:
U+0041: ‘A’(ASCII字符)
U+00A9: ©(Copyright符号)
U+4E2D: 中(中文字符)
U+1F602: (笑脸Emoji)
UTF 并不是字符集,而是一种编码规则。UTF-8、UTF-16、和 UTF-32 是 UTF 中的几种常见编码方案。
无论是UTF-8还是UTF-16,它们都能够完整地映射所有Unicode字符集中的字符。
UTF-8: 可变长度编码,使用1到4个字节表示一个字符,兼容ASCII。
UTF-16: 也是可变长度编码,使用2或4个字节表示一个字符,用于表示 Unicode 的基本多文种平面(BMP)和辅助平面字符。
UTF-32: 固定长度编码,使用4个字节表示一个字符。
UTF 提供了编码方案,用于以字节序列的形式表示 Unicode 字符。