(。・∀・)ノ゙嗨 大家好,这里是小圆
现在开始每天都给大家 分享些关于python爬虫的案例教学
从最简单的开始 — 采集图片壁纸
今天就来扒拉这个优质的壁纸网站~
网址
顺便瞧一眼 这里的壁纸
当然 肯定不止这些…
# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入正则模块 --> 内置模块, 不需要安装
import re
一. 数据来源分析
获取图片ID:
获取图片链接/名字
ok,到这里后 咱就开始敲敲写写代码吧
模拟浏览器对于url地址发送请求
模拟浏览器 <反爬处理> 请求头 <字典数据类型>
如果你不伪装, 可能会被识别出来是爬虫程序, 从而得到数据内容
可以直接复制粘贴 --> 开发者工具里面就可以复制
Response: 中文意思–>响应
<>: 表示对象
200: 状态码 表示请求成功
### 源码领取kou群:309488165 ###
for page in range(2, 11):
print(f'=================正在采集第{page}页的数据内容=================')
# 请求图片目录页面url
url = f'http://www.netbian.com/dongman/index_{page}.htm'
# 伪装模拟成浏览器
headers = {
# User-Agent 用户代理 浏览器基本身份信息
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接受返回的数据
response = requests.get(url=url, headers=headers)
获取服务器返回响应数据
response 网页源代码
response.text 获取响应文本数据 <网页源代码>
提取我们想要的数据内容 图片ID
调用re模块里面findall方法 --> 找到所有我们想要的数据
re.findall(‘找什么数据’, ‘从哪里找’) --> 从什么地方, 去匹配找什么样的数据内容
从 response.text<网页源代码> 里面 去找 \d+ 表示任意数字
# 提取图片ID --> 列表 <盒子/箱子> '29381' 是列表<箱子>里面元素<苹果>
img_id_list = re.findall(', response.text)
# for循环遍历, 把列表里面元素 一个一个提取出来
for img_id in img_id_list:
# img_id变量<袋子> 给 img_id_list 列表<盒子> 里面 元素<苹果> 给装起来
print(img_id)
response 网页源代码
# 请求详情页链接 --> f'{img_id}' 字符串格式化方法
link = f'http://***.com/desk/{img_id}.htm'
# 发送请求
response_1 = requests.get(url=link, headers=headers)
# 获取数据内容 网页源代码 ---> 乱码了, 进行转码
response_1.encoding = 'gbk'
提取我们想要的数据内容 < 图片链接/图片标题 >
img_url, img_title = re.findall('
, response_1.text)[0]
先获取图片数据内容
img_content = requests.get(url=img_url, headers=headers).content
with open('img\\' + img_title + '.jpg', mode='wb') as f:
f.write(img_content)
print(img_url, img_title)
如何批量下载保存高清壁纸?手把手带你用Python实现出来
今天的案例分享到这里就结束啦
对文章有问题的铁汁可以私信我哦