右键选择检查
或者直接按F12
来到控制台
点击左上角的箭头
或者快捷键ctrl+shift+c,查看详细信息
根据本站文章进行修改并注释:
彼岸图网图片爬取
另一篇参考文章,没有分页,而且读取会报错:
OSError: [Errno 22] Invalid argument: '彼岸图网图片获取/彼岸原创|哆啦a梦|电脑分区8K壁纸.jpg'
Python爬虫之入门保姆级教程,学不会我去你家刷厕所
| 这个字符我没有想到办法禁止转义,如果需要的话,可能要根据本文代码进行修改,作者也没有来我家刷厕所
import re
import requests
import parsel
import os
# user-agent 用来模拟浏览器对网站进行访问,避免被网站监测出非法访问
# Referer 图片所在网址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
'Referer': 'http://pic.netbian.com/e/search/result/?searchid=1224'
}
# 定义保存路径
path = "E:\\5k壁纸\\" # 自定义位置
if not os.path.exists(path):
os.mkdir(path) # 如果不存在,自动创建
def spider():
# 循环读取每一页
for i in range(0, 564):
# Request URL 发送请求的网站地址,也就是图片所在的网址
url = 'http://pic.netbian.com/e/search/result/index.php?page={}&searchid=1224'.format(i)
# 读取图片
response = requests.get(url, headers=headers)
# print(response.text)
html = parsel.Selector(response.text)
img_urls = html.xpath("//div[@class='slist']/ul/li/a/img/@src").getall() # 获取图片链接
names = html.xpath("//div[@class='slist']/ul/li/a/img/@alt").getall() # 获取图片名字
for name, img_url in zip(names, img_urls):
# 读取名字中连续的汉字,返回一个列表,如['夜晚','雨天','街道']
name = re.findall('[\u4e00-\u9fa5]{1,10}', name)
# 将列表内容用-连接, 如 '夜晚-雨天-街道'
name = '-'.join(name) + '.png'
# 判断名字中是否含有’女‘字
if '女' in name:
print(name) # 输出图片名字
# print(type(name))
img_url = "http://pic.netbian.com/" + img_url # 图片链接
print(img_url) # 输出图片链接
else:
break # 不含’女‘字就退出
# 通过requests连接到图片
content = requests.get(img_url, headers=headers).content
with open(path + name, mode='wb') as fp:
# 写入文件
fp.write(content)
if __name__ == '__main__':
spider()
爬取效果展示:
爬到一个不得了的内容
图为仙女星