常用字符编码简介

常用字符编码简介_第1张图片

字符编码要注意
1. 字符编码存储位数
2. 中文字符编码兼容性
3. Unicode 字符编码的 BOM

字符编码位数参考下表

常用字符编码简介_第2张图片

中文字符编码兼容性

常用简体中文编码:GB2312、GBK、GB18030。
GB2312 兼容 ANSII,GBK 兼容 GB2312,GB18030 兼容 GBK。
GB2312 英文用1个字节存储,中文用 2 个字节存储;
GBK 英文用 1 个字节存储,中文用 2 个字节存储;
GB18030 英文用 1 个字节存储,中文用 2 个字节或 4 个字节存储(有的汉字用2个字节,有的用4个字节)。

Unicode 编码类型与BOM

UTF-8、UTF-16、UTF-32 都是 Unicode 编码的一种。

BOM(byte order mark)字节顺序标记,是一个 Unicode 编码字符。无BOM 即文件中不使用 BOM,但是通常会带有BOM。BOM 有两类:little endian 和 big endian。big endian 意味着表示字符的若干个字节中,高位字节在左侧,低位字节在右侧;little endian 意味着表示字符的若干个字节中,低位字节在左侧(因此优先读取),高位字节在右侧。通常使用 little endian。

  • UTF-8 的BOM 为 EF BB BF,英文用 1 个字节存储,中文用 3 个字节存储;
  • UTF-16 的 BOM 为 FF FE,英文用 2 个字节存储,中文用 2 个字节存储;

Window 系统(中文环境)默认使用 GBK 编码。
eclipse 默认使用系统的编码环境,即 GBK 编码。
IntelliJ IDEA 默认使用 UTF-8 编码。

你可能感兴趣的:(常用字符编码简介)