只用20行python代码爬取必应高质量图片

最近需要一些数据来训练神经网络,发现必应上照片的质量很高,于是写了个脚本来爬取照片。
我用的selenium框架,简单实用,代码在最后面,只需要修改三个参数就行。

下面简单介绍一下使用步骤。

先打开必应网站,在搜索栏里输入自己要爬取图片的关键词(如“企鹅”),再选择图片,如下所示

只用20行python代码爬取必应高质量图片_第1张图片

然后点击第一张图片查看原图(否则这一页都是缩略图),进入如下页面

然后复制上面的链接,粘贴到代码里面driver.get()中,再设置一下爬取上限和保存路径就可以了(注意URL里面不能有中文字符,我这里复制下来后放在jupyter-notebook里面自动将中文字符转为英文字符串了)。

代码如下

# -*-.coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
import urllib

with webdriver.Safari() as driver:
    wait = WebDriverWait(driver, 10)
    driver.get("https://cn.bing.com/images/search?view=detailV2&ccid=Ox48xUaY&id=71B7C20B885E0BC65D2D4E044662FB55A3078486&thid=OIP.Ox48xUaYQvUeC90Ws2wQQQHaHa&mediaurl=http%3a%2f%2fpic28.nipic.com%2f20130406%2f9483785_165021459000_2.jpg&exph=1024&expw=1024&q=%e4%bc%81%e9%b9%85&simid=608011899868351589&ck=947915F9DF09EA0AF6344C192232B62C&selectedIndex=0&ajaxhist=0")     # 替换为自己的URL
    time.sleep(5)
    num = 1
    for i in range(1000):    # 设置爬取图片上限
        src = driver.find_element_by_class_name("imgContainer").find_element_by_tag_name('img').get_attribute("src")
        print(src)
        try:
            time.sleep(0.2)
            urllib.request.urlretrieve(src,'./bing/' + str(num)+'.jpg')  # 设置为自己保存路径
            num += 1
            time.sleep(0.2)
        except Exception :
            time.sleep(1)
            print("产生未知错误,放弃保存")
            driver.find_element_by_xpath("//span[@title='Next image result']").click()
        else:
            print("图" + str(num))
            driver.find_element_by_xpath("//span[@title='Next image result']").click()

帮助到您的话点个赞哦!

你可能感兴趣的:(数据科学,Python,python,爬虫,图片,selenium,必应)