Python 爬取网站图片

Python 爬取网站图片

  • 简述
  • 引入插件
  • 选择网站
  • 编写代码

简述

Python 爬取网站图片,分为以下步骤

  1. 得到网站的HTML源码
  2. 拿到源码中的Img标签
  3. 拿到标签scr里的值
  4. 拼接成图片的服务器地址
  5. 下载到本地

引入插件

使用brew下载以下两个第三方库

第三方库requests
pip3 install requests
第三方库pyquery
pip3 install pyquery

选择网站

http://pic.netbian.com/4kmeinv/

编写代码

#引用requests库
import requests
#引用pyquery库
from pyquery import PyQuery as pq

#浏览器头 可直接复制
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}

#拿图片的网址
url = "http://pic.netbian.com/4kmeinv/"

#用插件拿到html源码
response=requests.get(url,headers=headers)
#设置网站的解码
response.encoding="GBK"

#使用pq插件拿到可解析的html的源码
html_doc=pq(response.text)
#拿到html里面所有img标签
images=html_doc.find('img').items()
x=0
#遍历拿到的所有的img标签
for image in images:
    #拿到img标签里面src的值
    img_url=image.attr('src')
    #拿到图片2进制
    img_2bit = requests.get("http://pic.netbian.com/" + img_url, headers=headers).content
    #写入文件,并重命名
    open('/Users/slowfeather/Documents/PythonProject/PyProject/img/' + str(x) + '.jpg', 'wb').write(img_2bit)
    x+=1

你可能感兴趣的:(Python)