爬取网站下载大量图片

遇到的问题以及解决

  1. 下载方式
    通过导入urllib.request
    利用该函数urllib.request.urlretrieve()

  2. 网站403 封IP 反爬取
    利用header 伪装
    添加网站Host
    通过sleep()函数 增加爬取之间间隔

  3. 遇到图片具有非法字符路径时
    通过 replace函数 替换

  4. clear()清空List

  5. 乱码问题

import requests
url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
r = requests.get(url)
r.encoding = 'GBK'
print r.text

你可能感兴趣的:(爬取网站下载大量图片)