爬取美女图片【绝对福利】

 配置修改在下列config中。一开始没有使用多进程爬取,速度慢的像蜗牛,之后采用多进程,速度快了不少,但随之问题也来了,不到两天就被网站管理员band。之后只有增加随机睡眠时间,来模拟真人访问。之后被封的问题没有再出现。

# coding=utf-8
import functools
import hashlib
import random
import time
from multiprocessing import Pool, Manager
from urllib.request import urlopen
import requests
import os
import re
import logging
# 获取logger的实例
logger = logging.getLogger("Meizi_img")
logger.setLevel(logging.DEBUG)
# 指定logger的输出格式
formatter = logging.Formatter('%(asctime)s %(levelname)s %(message)s')
# 文件日志,终端日志
file_handler = logging.FileHandler("Meizi_img.log")
file_handler.setFormatter(formatter)
# 设置默认的级别
file_handler.setLevel(logging.DEBUG)
logger.addHandler(file_handler)


#============config===================
Type_ = 'riben'
Mumber = '182'
Local = "image\\"
Num = 2
URL = 'http://www.xixirenti.cc/%s/%s_' % (Type_, Mumber)
B_url = "http://www.xixirenti.cc/%s/%s.html" % (Type_, Mumber)
Logpath = Local+'log\\'
All_url = "http://www.xixirenti.cc"
Re_img = """var totalpage = ([\s\S]*?);"""
Re_obj = """
[\s\S]*?href=[\s\S]*?

 

你可能感兴趣的:(爬取美女图片【绝对福利】)