带你用30行python代码爬取10万张美女写真

先给出目标网址:http://www.youzi4.cc/

带你用30行python代码爬取10万张美女写真_第1张图片

嘿嘿嘿!

是不是很刺激啊!

马上开车!

首先老规矩,我们先分析一下网页信息

带你用30行python代码爬取10万张美女写真_第2张图片

在http://www.youzi4.cc/后面mm是一个类型的图集,这次我们就爬mm系列的所有美女写真,而后面的19890就是是mm写真系列的第19890个图集,‘_'后面就是该写真集的第几张。

至于开发环境是anconda直接用的python配置。

代码只是单线程,我这边爬4万张图片用了10个小时,以后会有改进

代码跑了10个小时没有问题,很稳定:

# built in python 3.5.2
# 作者:陈常鸿
from bs4 import BeautifulSoup
import requests
from PIL import Image
from io import BytesIO

path='F:\youzi4/'
num=1
content='http://www.youzi4.cc/mm/'   #
# 爬取具体图片连接
while True:
    html='.html'
    max=100
    print(num)
    for n in range(1, max):
        url=content+str(num)+'/'+str(num)+'_'+str(n)+html    # mm/x/x_num.html
        webdata=requests.get(url).text
        soup=BeautifulSoup(webdata,'lxml')
        try:
            link=soup.select("img.IMG_show")
            jpg=link[0].get('src')               # 定位后是一个列表,尽管只有列表只有一个,他还是一个列表,所以需要定位到[0]
            pic = requests.get(jpg)
            image = Image.open(BytesIO(pic.content))
            image.save(path + str(num) +'_'+ str(n) + '.jpg')
            print("完成:",n)
        except IndexError:
            break
        except OSError:
            continue

    print('下载完成!')
    num+=1

以下是技术开车Q群:

带你用30行python代码爬取10万张美女写真_第3张图片

我的个人公众号:










你可能感兴趣的:(奇淫技巧)