一、编码支持
. ASCII编码:美国信息交换标准代码(American Standard Code for InformationInterchange,简称ASCII)是一种用于信息交换的美国标准代码,它的作用是给英文字母、数字、标点、字符转换成计算机能识别的二进制数规定了一个大家都认可并遵守的标准。
. GB2312编码:适用于汉字处理、汉字通信等系统之间的信息交换
. GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码
. ANSI是与你使用的windows操作系统的语言有关系的,向windows 7 简体中文版就是GBK(用一个字节表示英文,用两个字节表示一个中文)
. Unicode编码:这是一种世界上所有字符的编码,但是它没有规定的存储方式。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。
. UTF-8编码:是 Unicode Transformation Format - 8 bit 的缩写, UTF-8 是 Unicode 的一种实现方式。它是可变长的编码方式,可以使用 1~4 个字节表示一个字符,可根据不同的符号而变化字节长度。
二、编码转换
Python内部的字符串一般都是 Unicode编码。
Ø decode 的作用是将其他编码的字符串转换成 Unicode 编码
例如:name.decode(“GB2312”),表示将GB2312编码的字符串name转换成Unicode编码
Ø encode 的作用是将Unicode编码转换成其他编码的字符串
例如: name.encode(”GB2312“),表示将unicode字符串name转换成GB2312编码
Ø进行编码转换的时候必须先知道 name 是那种编码,然后 decode 成Unicode 编码,最后再 encode 成需要编码
Øname 已经就是 Unicode 编码了,那么就不需要进行 decode 进行解码转换了,直接用 encode 就可以编码成你所需要的编码
Ø对中文unicode字符decode会报错。英文字符调用decode方法不会有问题。
u’中文’把数据已经存储为unicode。当用decode(‘gbk’)解码时,就变成非unicode编码(ASCII码)了。当print到屏幕时,把ASCII编码(encode)成(‘gbk’)。但是,ASCII码不支持中文。报错!
英文不报错是因为ASCII码支持英文(python代码)。
三、文件存储和读取的编码
.在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
.用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
但是,文件含有GBK编码的中文会报错(python代码)。
有一个观点得理清:并不是中文就是是gbk编码
gbk是一种编码方式,gbk可以表示中文
utf-8 也是一种编码方式,也可以表示中文
主要取决于你的文件本身是通过什么格式编码的:
1、 如果在windows下,通过新建文件,手工输入中文,则编码格式是gbk,因为中文版的windows下,gbk是默认编码格式
2、 如果在pycharm或者其他编译器 下,新建文件,并且写入的中文,则编码格式是utf-8,如果统一更改过pycharm等编辑器的编码格式。
从文件中读取到内存,是以unicode存储中文(‘gbk’)编码。终端显示时,decode(‘gbk’)转码为中文(‘gbk’)。
如果用decode(‘utf-8’)转码时,会因为编码方式与中文编码(‘gbk’)不同报错。
四、RIDE中文日志乱码问题
因为 Windows 平台是 gbk(cp936)编码,需要判断。
源代码:testrunner.py
C:\Python27\Lib\site-packages\robotide\contrib\testrunner
# 导入 platform
import platform
def pop(self):
result = ""
for _ in xrange(self._queue.qsize()):
try:
result += self._queue.get_nowait()
except Empty:
pass
# Author: Allan Ma
# 判断是否 Windows平台
if platform.system() == 'Windows':
return result.decode('gbk')
#
return result.decode('UTF-8')
list,tuple和dict中出现的乱码
源代码:unic.py
C:\Python27\Lib\site-packages\robot\utils
版本1:robotframework2.8.5
A. import json;
B. 找到代码块:def _unic(item, *args),添加代码。
版本2:robotframework3.0.2
A. import json;
B. 找到代码块:def unic(item),添加代码。
显示正常中文字符
console中出现的乱码
为什么CMD会出现乱码呢?这是因为我们写的RIDE程序在Windows中默认是cp437编码,通过RIDE编译后,也是编译为cp437编码,而这时cmd是通过cp936进行解析的,所以会出现中文乱码。
版本1:robotframework2.8.5
解决方法:
${err} Evaluate str('${result.stderr}').decode('cp936')
版本2:robotframework3.0.2
源代码:encodingsniffer.py
C:\Python27\Lib\site-packages\robot\utils
显示正常中文字符
五、用json处理完list,tuple和dict中乱码之后产生的问题:无法以列表,元组和字典的方式读取数据
数据驱动:从CSV文件中读取数据。但是,通过json转换后,dict变成str。无法以字典的方式读取。
关键字:Read CSV File
关键字:unic处理编码问题。return item中的数据是str。
添加json.loads()方法处理
原理:
json.dumps : dict转成str
json.loads : str转成dict
PS:不要把 json.dumps & json.loads 和 json.dump & json.load 搞混了。
json.dumps:把python数据保存为json。
json.load:从文件中读取json数据。