python汉字的unicode编码_python解决汉字编码问题:Unicode Decode Error

前言

最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误:

ascii codec can't encode characters in position ordinal not in range 128

UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴,可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解:

ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字

unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度

内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间

那么python的默认编码是什么?

>>> import sys

>>> sys.getdefaultencoding()

'ascii'

>>> reload(sys)

>>> sys.setdefaultencoding('utf-8')

>>> sys.getdefaultencoding()

'utf-8'

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8

你可能感兴趣的:(python汉字的unicode编码_python解决汉字编码问题:Unicode Decode Error)