由requests发送gbk编码表单引发的对python编码的剖析

首先必须得承认，这是个很偏的需求。因为现在只有一些很古老的网站才在用gbk编码，连提交表单都是奇葩的gbk编码。想看解决方案，可以跳过前面的问题重现与分析。

原以为在 Python3 就不会遇上Python2那么多的编码问题了，事实也确实如此，Python3统一了编码，这点确实方便了很多。但是还是在昨晚爬学校教务处的时候，遇到了一个比较奇特的问题。

我需要发送一个gbk编码的表单，但是我想了很多办法都发送失败了。
看了很多文章，大概懂了一点关于Python3的编码问题，也确实是由于我不够熟练。

url = ''
data = {'area': '本部'}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这样输出的是utf-8的编码，传入的也是utf-8的编码。
但是请求却收不到正确的响应，因为网站并不能解析utf-8的表单。
所以需要把本部两个字转换成gbk的编码。

data = {'area': '本部'.encode('utf-8')}  # 失败，服务器端接收到的还是utf-8的编码

所以二进制的也不行，再decode成gbk试试

url = 'http://www......'
data = {'area': '本部'.encode('utf-8').decode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

报错

data = {'area': '本部'.encode('utf-8').decode('gbk')}
UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence

于是在Python3，又遇到了神奇的UnicodeDecodeError。百思不得其解，为什么二进制的字符就不能转换成gbk呢。
然后我就打开了熟悉的百度，开始搜索问题，看过很多文章，都讲的不是很懂。自己又慢慢开始测试，一边抓包验证一边改变编码。
试过很多次之后，终于成功了。

url = 'http://www......'
data = {'area': '本部'.encode('gbk')}
res = requests.post(url, data=data)
print(res.content.decode('gbk'))

这个操作让我很不解，为什么原来是utf-8的编码，可以直接通过gbk的方式编码成二进制，这在Python2是肯定会报错的，因为编码都不统一。但是程序并没有报错，而且确实请求成功了。
联系到前面的UnicodeDecodeError，又思考了一下。
结论如下：

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

所以如果要把utf-8的编码转换成gbk的编码，在声明了编码是utf-8的情况下，
只需要print '你好'.decode('utf-8').encode('gbk')就可以成功输出gbk编码到控制台。

Python2编码演示

那为什么'你好'.decode('utf-8')输出的和直接输出'你好'是相同的呢。因为ipython默认采用了utf-8的编码(大部分IDE的控制台默认编码都是utf-8)，所以输出的Unicode，会被转变成utf-8来输出，于是大家看到的输出就是相同的了。

在Python3中，decode 是把 二进制字符串 解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

所以如果把utf-8的二进制字符串decode成gbk会报错，因为根本格式不一样。而utf-8就可以encode('gbk')转变成gbk的二进制字符串。因为Python已经把默认的编码从2.7的ASCII改成了3.x的Unicode了。

Python3编码演示

a.encode('gbk').decode('gbk')为什么又不能输出乱码了呢，因为decode了之后gbk的二进制编码字符串已经变回了Unicode了，所以想要输出乱码是不可能的。
但是这又让我很苦恼，因为我要用requests发送一个乱码的gbk编码的字符串(再次吐槽这种落后的网站)。试过很多办法都不行，最后直接传入gbk的二进制编码就成功了。所以就引出了关于requests表单编码的第二个总结。

2.requests是可以接收二进制格式的表单内容的

看过requests的文档，说到了可以传输文件，但是我没想到普通的二进制字符串也可以传输，并且能够正确编码。看来requests的表单处理流程是

接收到参数，判断参数类型。
如果是字符串，就采用utf-8的编码解码，并进行urlencode同样的方法来转义表单内容。
如果是二进制编码，就直接进行urlencode转义表单内容。

补充一个关于urlencode的知识。HTTP请求在发送表单的时候，会把中文等等非ASCII字符转义成可以传送的字符。常见的就是%BA%CC这种一般人看不懂的字符。原理也很简单。
就拿你好来说
UTF-8编码下：
   二进制字符 你好 是: b'\xe4\xbd\xa0\xe5\xa5\xbd'
   urlencode之后是：     %e4%bd%a0%e5%a5%bd
GBK编码下:
   二进制字符 你好 是:b'\xc4\xe3\xba\xc3'
   urlencode之后是:    %c4%e3%ba%c3
这就应该很明显了。urlencode就是把二进制字符串的 \x 换成了 %。
所以请求的时候，编码很重要，编码错误很可能导致服务端拿不到正确的请求内容，从而爬虫也接收不到正确的响应内容。

由requests发送gbk编码表单引发的对python编码的剖析

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

在Python3中，decode 是把二进制字符串解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

2.requests是可以接收二进制格式的表单内容的

你可能感兴趣的:(由requests发送gbk编码表单引发的对python编码的剖析)

由requests发送gbk编码表单引发的对python编码的剖析

1.Python3 和Python2编码解码的性质不同

在Python2中，decode 是把字符串解码成Unicode码，encode则是把Unicode码转换成对应的编码格式。

在Python3中，decode 是把 二进制字符串 解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。

2.requests是可以接收二进制格式的表单内容的

你可能感兴趣的:(由requests发送gbk编码表单引发的对python编码的剖析)

在Python3中，decode 是把二进制字符串解码成Unicode码，encode则是把Unicode码转换成对应的二进制字符串。