23.讲讲对unicode, gbk, utf-8等的理解,python2.x是如何处理编码问题?

  • unicode编码:为了解决各个国家的语言的存储,引进的unicode码,包括UCS2,UCS4,UTF-8,UTF-7等
  • gbk:和unicode不一样的编码方式,常用的为gbk-2312
  • utf-8: UTF-8 使用 1-4 个字节来存储单个字符,应该是目前最流行的字符集。Linux 默认字符集就是UTF-8。既解决了大多数语言的编码方式,又避免了简单字符存储对空间的浪费
  • python 2.x需要在文件上方声明文件的编码方式# -- coding: utf8 --,可以通过str.decode/str.encode处理字符串的文本编码
    保证 python 编辑器的编码正确,或使用 u’中文’保证被转换成 unicode 编码,推荐使用sys.setdefaultencoding('utf-8')来保证我们的编码

你可能感兴趣的:(23.讲讲对unicode, gbk, utf-8等的理解,python2.x是如何处理编码问题?)