今天使用python脚本的requests请求一个网页,返回的内容出现了乱码,代码和现象如下图1:
import requests
def do_post():
r =requests.get("xxxxx")
if r.status_code != requests.codes.ok:
return None
print(r.text)
上网搜了解决方案,是页面编码问题导致的,在此做个记录。
比如,我们请求"必应"的首页,返回内容指明了页面编码是utf-8。
而有些网站没有返回charset内容,requests模块会默认其编码为"ISO-8859-1"。该编码显示英文页面没有问题,显示中文则乱码。
r.encoding:记录和设置页面的编码。如返回header里没有charset,则r.encoding = "ISO-8859-1"
r.apparent_encoding:记录了从返回内容中分析出的响应内容编码方式,猜测可能有些网页内容中指明了编码,如图1的第四行。
requests.utils.get_encodings_from_content:requests模块提供的一个函数,从body获取页面编码,注意内容必须是str格式。其功能和上面的差不多
r.content:二进制方式(即bytes方式)的页面响应内容,使用 r.encoding 记录的编码方式进行存储。因为是二进制数据,即一个byte作为一个单位记录信息。
r.text:字符串方式(即str方式)的页面响应内容,在python3中是unicode编码。
r.text和r.content我们可以看下requests的源码,如下:
@property
def text(self):
"""Content of the response, in unicode.
If Response.encoding is None, encoding will be guessed using
``chardet``.
The encoding of the response content is determined based solely on HTTP
headers, following RFC 2616 to the letter. If you can take advantage of
non-HTTP knowledge to make a better guess at the encoding, you should
set ``r.encoding`` appropriately before accessing this property.
"""
# Try charset from content-type
content = None
encoding = self.encoding
if not self.content:
return str('')
# Fallback to auto-detected encoding.
if self.encoding is None:
encoding = self.apparent_encoding
# Decode unicode from given encoding.
try:
content = str(self.content, encoding, errors='replace')
except (LookupError, TypeError):
# A LookupError is raised if the encoding was not found which could
# indicate a misspelling or similar mistake.
#
# A TypeError can be raised if encoding is None
#
# So we try blindly encoding.
content = str(self.content, errors='replace')
return content
可知在模块中,
注意:python3中默认都是unicode编码,所以unicode编码转为其他编码是encode函数,反之是decode函数。
r.content和r.text可以通过decode/str函数和encode/bytes函数进行互转,即:
r.content.decode(r.encoding) == str(r.content,encoding=r.encoding) == r.text
r.text.encode(r.encoding) == bytes(r.text,encoding=r.encoding) == r.content
我们可以使用代码做下验证:
import requests
def do_post():
r =requests.get("xxxxx")
if r.status_code != requests.codes.ok:
return None
print("r.encoding:", r.encoding)
print("r.apparent_encoding:", r.apparent_encoding)
print("requests.utils.get_encodings_from_content:", requests.utils.get_encodings_from_content(r.text))
print("content to text 1:", r.content.decode(r.encoding) == r.text)
print("content to text 2:", str(r.content, encoding=r.encoding) == r.text)
print("text to content 1:", r.text.encode(r.encoding) == r.content)
print("text to content 2:", bytes(r.text, encoding=r.encoding) == r.content)
打印结果:
解决方法:
将 r.content 根据正确编码进行转换,或者将r.encoding设置为正确的utf-8内容。
import requests
def do_post():
r =requests.get("xxxxx")
if r.status_code != requests.codes.ok:
return None
print("r.encoding:", r.encoding)
print("r.apparent_encoding:", r.apparent_encoding)
print("requests.utils.get_encodings_from_content:", requests.utils.get_encodings_from_content(r.text))
print("content to text 1:", r.content.decode(r.encoding) == r.text)
print("content to text 2:", str(r.content, encoding=r.encoding) == r.text)
print("text to content 1:", r.text.encode(r.encoding) == r.content)
print("text to content 2:", bytes(r.text, encoding=r.encoding) == r.content)
# 方法1,根据编码进行转换
resp1 = r.content.decode(r.apparent_encoding)
# print(r.text)
# 方法2,设置页面的编码
r.encoding = r.apparent_encoding
resp2 = r.text
print("resp1 and resp2:", resp1 == resp2)
print("++++++++++++++++++++++++++++++++++")
print("resp:", resp1)
输出结果,不乱码了:
整理了很久,自己也算梳理清楚了。
ps:之前看到返回页面的 Content-Encoding是gzip,还以为是压缩导致的乱码。其实requests的r.content会自动解码 gzip 和 deflate 压缩。
pps:还有一种unicode-escape编码,是将unicode的内存编码值直接存储,在此只为做个提醒。
参考:python中unicode和unicodeescape - 开飞机的贝塔 - 博客园