python爬取彼岸图网图片,涉及知识点:requests,xpath,urllib,文件下载后保存,if__name__的用法

网页源码:






4K壁纸_4K手机壁纸_4K高清壁纸大全_电脑壁纸_4K,5K,6K,7K,8K壁纸图片素材_彼岸图网







 




声明:注意!目前出现很多复制站,有的连域名都极其相似。本站未发展新站,须细心留意辨别。同时,在这里感谢大家的支持!
客服

在线客服

工作时间(9:00-23:00)

点击这里给我发消息

常见问题>>

电话

服务热线

13605998361

工作时间(9:00-23:00)

QQ群

QQ群

QQ群4(20379343)推荐3

QQ群3(223739596)推荐2

QQ群2(864686752)推荐1

QQ群1(427389122)热门

顶部

python代码:

# 保存文件库
import os.path
import random
import time

import requests
from lxml import etree
from urllib import request as req

url = 'http://pic.netbian.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
response = requests.get(url, headers=headers)
response.encoding = 'GBK'
# print(response.text)
tree = etree.HTML(response.text)
# 获取到了当前所有的图片的li
li = tree.xpath('//ul[@class="clearfix"]/li')
for i in li:
    # 获去图片url
    href = i.xpath('./a//img/@src')
    # 拼凑完整url
    image_url = 'http://pic.netbian.com' + href[0]
    # 获取文件名
    image_name = i.xpath('./a/b/text()')[0]
    # print(image_url)
    # 定义文件路径
    path = './img'
    # 如果当前路径不存在 则创建
    if not os.path.exists(path):    
        # 创建路径
        os.mkdir(path)
    # 下载链接和图片保存的位置
    req.urlretrieve(image_url, os.path.join(path, image_name+'.jpg'))
    print(image_name)
    # # 等待间隔时间
    time.sleep(random.randint(1,3))
# 1 练习 抓取多页
# 2 练习 抓取详情页的大图
# 3 练习 抓取多页 详情页的大图

运行结果:

python爬取彼岸图网图片,涉及知识点:requests,xpath,urllib,文件下载后保存,if__name__的用法_第1张图片

 添加if__name__后的写法:

import os.path
import random
import time
import requests
from lxml import etree
from urllib import request as req

def main(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
    }
    response = requests.get(url, headers=headers)
    response.encoding = 'GBK'
    # print(response.text)
    tree = etree.HTML(response.text)
    # 获取到了当前所有的图片的li
    li = tree.xpath('//ul[@class="clearfix"]/li')
    for i in li:
        # 后去图片url
        href = i.xpath('./a//img/@src')
        # 拼凑完整url
        image_url = 'http://pic.netbian.com' + href[0]
        image_name = i.xpath('./a/b/text()')[0]
        # print(image_url)
        path = './img'
        # 如果当前路径不存在 则创建
        if not os.path.exists(path):
            os.mkdir(path)
        req.urlretrieve(image_url, os.path.join(path, image_name+'.jpg'))
        print(image_name)
        time.sleep(random.randint(1,3))

if __name__ == '__main__':
    url = 'http://pic.netbian.com/'
    main(url)
# 1 练习 抓取多页
# 2 练习 抓取详情页的大图
# 3 练习 抓取多页 详情页的大图

你可能感兴趣的:(案例,python,python,爬虫,开发语言)