python中文编码问题

python 中对中文进行处理的时候,往往涉及到编码转换的问题,通常使用以下三种编码格式:
utf-8
gbk
unicode
国内用的比较多的是 gbk 格式,   unicode 是一个很好的编码方案,将世界各国的语言进行了统一的编码,美国人后来觉得自己吃了大亏,于是又搞了一种变长编码的   utf-8 的折衷方案。
python   中字符串的默认编码是   unicode ,在进行编码转换的时候,一般将   unicode 作为中间编码,即将其他编码的字符串解码为   unicode ,再将 unicode   编码为某个编码格式,   python 中相应的函数为 decode   encode
python   中文编码问题中,主要涉及到两点:文件的编码格式和编码声明。
在代码中字符串的默认的编码格式与代码文件的格式是一致的。在   vim 中书写代码的时候,可以通过   set fileencodings 来进行设置,可以同时设置多个编码,   vim 会根据顺序来来对文件进行解码。在对字符串进行解码之前,应该确认代码文件的编码格式。
一般在文件的开始都会用下面的形式进行编码声明:
#!/usr/bin/env    python
# -*- coding : gbk - *-
即声明编码格式为 gbk   -*- 是为了美观,可以去掉。   python 解释器就会默认采用声明的编码进行解码。在实际编程过程中,编码声明和文件的编码格式最好一致,当二者出现不一致的时候,往往会出现问题,特别是采用不同的编辑器修改后的文件,编码往往存在着差异。
当输入的中文字符串存在   gbk 编码和 utf-8   编码均有可能时,可以通过   try-except 进行嵌套处理,当在某一个编码下解码时没有触发   except 的时候,即为该编码的编码格式。
在对十六进制的编码进行处理的时候,还会出现转义的问题。在读入编码   \xXX 的过程中, X   代表十六进制字符,   \x 会被自动分解成 \   x X   X 的单个字符来处理,此时   \ 已经被转义为 \\ ,这样就完全偏离了初衷,就可以通过正则表达式就行替换处理。

你可能感兴趣的:(编程,正则表达式,python,vim,语言)