Python3爬虫(妹子图)


前言

最近在学习python爬虫,这是一个练手的小项目。
参考资料:

  1. 深入Python3
  2. Python官方文档
  3. 正则表达式30分钟入门教程
  4. 谷歌各种教程

简介

目标网站:煎蛋妹子图

Python3爬虫(妹子图)_第1张图片
妹子图网站

主要功能:新建一个文件夹,然后爬取页面,下载妹子图,每页的图分别放进一个文件夹,效果如下:
文件夹

Python3爬虫(妹子图)_第2张图片
文件夹内图片

代码

__author__ = 'Wayne'
import urllib.request
import os
import re

def url_open(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:36.0) Gecko/20100101 Firefox/36.0')
    response = urllib.request.urlopen(req)
    return response.read()

def get_page(url):
    html = url_open(url).decode('utf-8')
    pattern = r'\[(\d{4})\]' #正则表达式寻找页面地址

    page = int(re.findall(pattern,html)[0])
    return page



def find_imgs(page_url):
    pattern = r'

微信公众号:lyishaou


Python3爬虫(妹子图)_第3张图片
微信公众号

你可能感兴趣的:(Python3爬虫(妹子图))