常见编码的字节

常见编码

记录一下编码,其实程序员最关心的就是哪个编码集支持的符号更多,并且所占的字节数。

  • DBCS : Double Byte Charecter,双字节字符
    • GB2312:
      • 全角:${0xA10xF7}{0xA10xFE}$连续两个字节都大于127
      • 半角:$1 - 127$
+ GBK:$\{>127\}\{all\}$
    + GB2312 的变种,扩展
    + $\{>127\}\{all\}$连续的两个字符,如果`前一个大于127`,那么这两个对应一个字符.比如 $ox0777 0x0010$就是对应一个字符
    + 对于一个字符,如果小于127,那么对应ASCII中的1-127的编码。
+ GB18030
    + GBK 的扩充,增加了一些符号
  • Unicode:Universal Multiple-Octet Coded Character --UCS:一个字符==两个字节

    • 对所有语言重新编码,所以不兼容DBCS
  • UTF:UCS Transfer Format

    • UTF8:每次8位,一个字节为一个小单位:
      • 可以有1~4个字节
        • ASCII:1字节
        • 中文:3字节
    • UTF16: 固定都是16b,两个字节的长度

你可能感兴趣的:(常见编码的字节)