Python3爬虫实战(requests模块)

上次我通过两个实战教学展示了如何使用urllib模块(http://blog.csdn.net/mr_blued/article/details/79180017)来构造爬虫,这次告诉大家一个更好的实现爬虫的模块,requests模块。

使用requests模块进行爬虫构造时最好先去了解一下HTTP协议与常见的几种网页请求方式。

闲话少说,我们进入正题。

使用requests模块改进上次的例子中的代码

1.爬取妹子图。(目标网址:http://www.meizitu.com/

import requests
import os
import re
import time

def url_open(url):
    # 以字典的形式添加请求头
    header = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"
        }
    # 使用get方法发送请求获取网页源码
    response = requests.get(url, headers=header)
    return response

def find_imgs(url):
    html = url_open(url).text
    p = r'



2.爬取百度贴吧图片 (目标网址:https://tieba.baidu.com/p/5085123197)

import requests
import re
import os

def open_url(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"}
    response = requests.get(url, headers=headers)

    return response

def find_img(url):
    html = open_url(url).text
    p = r'


总结:
1.熟悉requests模块的方法,以及了解http协议和几种常见的请求方式
2.了解网站的反爬虫策略,并建立相对应的反反爬虫手段
3.知道其他模块的作用。

爬虫项目地址:github

你可能感兴趣的:(Pythom爬虫)