编码格式总结

【GBK、UTF-8、ISO8859-1】三种编码方式总结

https://blog.csdn.net/YoungStar70/article/details/64117297

 

字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8

https://zhuanlan.zhihu.com/p/38333902

 

en-US和en-US.utf8的区别:

en-US和en-US.utf8的唯一区别是前者使用ISO-8859-1作为字符集,而后者使用UTF-8。更喜欢UTF-8。唯一的区别在于它们能代表什么样的字符。ISO-8859-1表示许多美国人共有的字符(英文字母表,加上几个带重音的字母),而UTF-8则编码所有Unicode,因此,几乎可以想到任何一种语言。如今,UTF-8实际上是一种文本标准编码。(这就是为什么你更喜欢它。)

 

UTF-8与ISO 8859-1区别:

UTF-8是一种多字节编码,可以表示任何Unicode字符。ISO 8859-1是一种单字节编码,可以表示前256个Unicode字符。两者编码ASCII的方式完全相同

  • ASCII: 7 bits. 128 code points.

  • ISO-8859-1: 8 bits. 256 code points.

  • UTF-8: 8-32 bits (1-4 bytes). 1,112,064 code points.

Both ISO-8859-1 and UTF-8 are backwards compatible with ASCII, but UTF-8 is not backwards compatible with ISO-8859-1:

#!/usr/bin/env python3

c = chr(0xa9)
print(c)
print(c.encode('utf-8'))
print(c.encode('iso-8859-1'))

Output:

©
b'\xc2\xa9'
b'\xa9'

 

你可能感兴趣的:(杂章)