selenium轻松爬取煎蛋网妹子图片

前几天发现这个不错的网站,所以说身为单身dog的我趁没事也来爬一爬^=^

selenium轻松爬取煎蛋网妹子图片_第1张图片

网页设置了 Anti creeper机制,我们并不能顺利地爬取网页上的内容,这里我使用了selenium对数据进行爬取

selenium轻松爬取煎蛋网妹子图片_第2张图片
对图片的网址进行了加密

导入包

from selenium import webdriver

import requests

from bs4 import BeautifulSoup

获取 URL

path="C:/Users/99787/Desktop/xyz/" # 保存图片的路径

urls = ["http://jandan.net/ooxx/page-{}#comments".format(str(i))for iin range(45, 51)] # 需要爬取的url

driver = webdriver.PhantomJS() # Chrome()都行

img_url=[]

获取网页中的element

for url in urls:

    driver.get(url)

    # 网页源码

    data = driver.page_source

    # 解析网页

    soup = BeautifulSoup(data, "lxml")

    # 定位元素

    images = soup.select("a.view_img_link")

    # print(images)

    for image in images:

        dynamic = image.get('href')

        if str('gif') in str(dynamic): # 去除gif

            pass

        else:

            http_url = "http:" + dynamic

            img_url.append(http_url)

            # print("http:%s" % dynamic)

    for j in img_url:

        r=requests.get(j)

        print('正在下载 %s' % j)

        with open(path+j[-15:],'wb')as jpg:

            jpg.write(r.content)

selenium轻松爬取煎蛋网妹子图片_第3张图片
元素在这里
selenium轻松爬取煎蛋网妹子图片_第4张图片
图片就下载下来咯


selenium轻松爬取煎蛋网妹子图片_第5张图片
可以一饱眼福慢慢看了^=^

你可能感兴趣的:(selenium轻松爬取煎蛋网妹子图片)