爬取图片时遇到中文url

python版本:3.6.5
pycharm版本:2018.3

我经常在爬取图片时遇到太有中文的url,有一个非常简单的方法解决。
1:第一步先导入两个包在这里插入图片描述
一个正则re,另一个则是爬虫辅助用的包(个人认为)
2:urllib.parse包
爬取图片时遇到中文url_第1张图片
quote是编码,encoding参数可带编码格式,如果不加,默认是当前环境的编码格式,返回结果是
在这里插入图片描述
把后面的中文“已缩减”变成编码的格式,因为编码也会把":“也改变了,所有后面必须用sub函数把”:"换回来,否则图片url不能下载。
sub的结果返回,sub函数的用法是将搜寻到的参数相等时替换,第一个参数是你想搜寻的,第二个参数是你想把搜寻到的字符替换成它的参数。
在这里插入图片描述
在这里插入图片描述
3:urlparse方法:将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段。

在这里插入图片描述
4:有编码自然有解码,将已编码的字符解码。返回结果
在这里插入图片描述
也可以添加解码格式,默认是utf-8
爬取图片时遇到中文url_第2张图片

你可能感兴趣的:(python爬虫)