爬取url:随意,此次项目实战中爬取url为 pic.netbian.com
通过页面捕捉工具,分析页面源码,定位图片名称与地址。
分析页面源码可知,每一张图片的信息都由一个li标签保存,每一个li标签中的a标签下的href为图片的详细地址,title为图片名称。
点击上述href跳转到图片详细界面,再次通过页面捕捉工具,获取图片下载地址
分析页面代码,img标签下的src属性即为图片下载地址。
代码编写
import requests
import os
from lxml import etree
if not os.path.exists('4kpic_new'):
os.mkdir('4kpic_new')
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Mobile Safari/537.36