编码相关的笔记


《区分: 编码方式 字符集 Unicode UTF-8》
有一个疑问:用多种转换工具(比如站长工具)试了,“汉”的utf-8编码并不是E6B189,而是和Unicode一样的数字,这是为什么?


编码方式对比:

编码方式 ASCII Unicode UTF-8
二进制表示字母‘A’ 01000001 00000000 01000001 01000001
二进制表示中文‘中’ 01001110 00101101 11100100 10111000 10101101
十六进制形式 \u4e2d b\xe4\xb8\xad
编码范围 只有英文 所有语言 所有语言
一个字符占字节数 1 2(少数偏僻字4) 英文1,中文3(少数偏僻字4-6)
特点 统一,英文就在ASCII前面补一个字节 节省,英文跟ASCII一样只有一个字节
用处 内存中,服务器中,比较统一 保存在硬盘时,传输时,需要节省

python3中的str与bytes:



(ASCII和utf-8操作方式类似)


你可能感兴趣的:(编码相关的笔记)