字符编码

字符编码(Character Encoding)是将字符集中的字符映射成计算机可识别的二进制数字的过程。UTF-8是一种常用的字符编码方式,它可以表示世界上几乎所有国家的文字,具有跨平台、容错性强等特点,因此广泛应用于各种互联网应用中

UTF-8是一种使用变长字节表示Unicode字符的编码方式,它可以表示Unicode标准中的任何字符。UTF-8编码的一个优点是它可以向后兼容ASCII编码,因此在ASCII字符范围内,UTF-8编码与ASCII编码是一致的。

UTF-8编码的规则如下:

  1. 对于单字节字符,UTF-8使用ASCII编码中的相应字节表示。

  2. 对于多字节字符,UTF-8使用多个字节表示。第一个字节以110开始,第二个字节以10开始,之后的字节均以10开始,每个字节中剩余的位用于存储字符的编码。

  3. UTF-8编码中使用的字节数与字符的编码有关,常用的汉字使用三个字节表示,而一些特殊字符可能需要更多的字节表示。

UTF-8编码的优点是它可以节约存储空间,同时也方便了文本的传输和处理。

UTF-8的字符编码过程可以简单总结为以下步骤:

  1. 确定字符的Unicode码点:每个Unicode字符都有一个唯一的码点,表示该字符在Unicode标准中的位置。

  2. 根据Unicode码点确定编码长度:根据码点的大小确定使用多少个字节来表示该字符。UTF-8编码使用1至4个字节表示字符。

  3. 根据编码长度生成字节序列:根据编码长度的规则,将码点转换为字节序列。具体规则如下:

    • 对于单字节字符(Unicode码点范围U+0000至U+007F),直接使用该码点的ASCII值作为字节值。
    • 对于多字节字符,根据码点范围和编码长度来计算每个字节的值。首字节的前几位指示编码长度,后面的字节的前两位都为"10"。
  4. 将生成的字节序列存储或传输:将生成的字节序列存储到文件中或传输到其他系统。保证接收方能够正确解析和处理UTF-8编码。

总体来说,UTF-8编码过程就是将Unicode字符转换为对应的字节序列,确保字符能够在计算机系统中进行存储、传输和处理。

字符编码_第1张图片

 字符编码_第2张图片

 

字符编码_第3张图片

   也就是先在Unicode表中查到你要的汉字的码,然后看Unicode符号范围,得到你的字节数,再将其转换为二进制再将其从后往前依次填充,在后面可能不够x填充的了,就将x填充为0即可

 单字节一般ascll码就可以,多字节才会用到UTF-8,一般汉字都是三字节,表情包为4字节

 

Unicode

Unicode是一个标准字符集,旨在为所有的语言和符号提供一个统一的编码方案。它定义了每个字符的唯一码点,这些码点可以用来表示字符在计算机系统中的位置。

Unicode为每个字符分配了一个唯一的码点,这个码点通常以"U+"开头,后面跟着字符的十六进制表示。例如,拉丁字母"A"的Unicode码点是U+0041。

Unicode编码空间非常庞大,目前已经定义了超过130万个码点,覆盖了几乎所有已知的语言和符号。它包含了各种文字系统,如拉丁字母、希腊字母、西里尔字母、中文、日文、韩文等。

Unicode的实现方式有多种,如UTF-8、UTF-16和UTF-32。这些编码方式将Unicode字符映射为不同长度的二进制序列,以适应不同的应用需求。

通过使用Unicode,我们可以在计算机系统中处理和表示全球范围内的文本数据,实现跨语言和跨文化的交流与处理

你可能感兴趣的:(java,前端,javascript)