ASCII/GBK/Unicode/UTF-8编码问题

这是个很烦人的问题,看了几篇文章都没怎么搞懂,但还是想记录一下自己了解的东西。

 

ASCII码:一个字节,即8位。分为标准和不标准两种,标准的最高位为0,剩下7位共可以表示128种字符,美国够用了;而后来流传到欧洲国家就不够用了,他们用上了最高位,兼容标准的ASCII,共256种。

GBK:中国为了兼容中文而制定的编码规则,兼容ASCII,用一个字节表示ASCII,用两个字节表示中文。

Unicode:统一联盟国际组织提出的为了兼容世界上所有语言的编码规则。但Unicode只规定了编码,没规定怎么传输/保存编码,如某个字符占两个字节,但当你拿到这两个字节时你不知道这是两个字节表示的一个字符还是说是两个字符拼接在一起了。

UTF-8:Unicode的一种实现方式,就好像英语是国际通用语言,而各个国家再把英语翻译成自己的语言。Unicode就像英语,而UTF-8就像翻译出来的语言。UTF-8有特定的存储方式,可以区分不同字节数的字符。

UTF-8/GBK---解码-->Unicode;Unicode---编码-->UTF-8/GBK

有时候用python处理表格什么的时候,想把某些值转成str会报错说‘ascii codec can't encode characters in position。。。’

这是因为str()默认是执行s.encode('ascii')的,因此若某些字符非ascii兼容的就会出错,如u'你好',因此要手动s.encode('gbk')或s.encode('utf-8')。

遇到什么问题我再在这里记录。

你可能感兴趣的:(知识点)