第四阶段 爬虫整理

爬虫概述

爬虫案例

案例1:爬取百度贴吧数据

分析:GET方式爬取数据
抓包:
设计:
实现:

案例2:抓妹子图

分析:GET方式爬取Ajax 数据
抓包:
设计:
实现:

案例3:爬取豆瓣电影数据

分析:POST方式爬取Ajax数据
抓包:
设计:
实现:

抓QQ空间数据

分析:登陆才能访问
抓包:
设计:
实现:

任务:总结!!

爬虫进阶 + 正则

目标

掌握自定义数据请求方式的开发步骤
掌握自定义数据请求方式----代理请求
了解自定义密码管理处理方式
掌握自定义cookie管理处理方式

常规数据爬取方式

数据get请求方式
Ajax 数据 get 请求方式
Ajax数据post请求方式
Cookie模拟账号登陆方式请求受限数据
核心:代码的设计开发(数据封装和请求头设置)

常规数据请求方式(掌握)
urllib2.urlopen(url, data, headers)

自定义数据请求方式(掌握)

headler = urllib2.HTTP/HTTPSHandler()
opener = urllib2.build_handler(handler)
opener.open(request)

自定义代理请求方式(掌握)

urllib2.ProxyHandler({
  "http":"ip:port"
})

urllib2.ProxyHandler({
  "http":"user:pass@ip:port"
})

密码管理器(了解)

HttpPassWordMgrWithDefaultRealm()
1. ProxyBasicAuthHandler() #授权代理处理器
2. HttpBasicAuthHandler() #验证web客户端授权处理器

Cookie 模拟登陆

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcess(cookie)

加载全局opener(掌握)

urllib2.install_opener(opener)
urllib2.urlopen(..)

任务:
总结自定义处理器的几种操作方式和应用场景
查找目标URL进行数据的爬取练习

6爬虫高级 ----Scrapy入门

目标

  • 爬虫概述:
  • Scrapy概述:
  • 入门程序:

关于爬虫

  • 有数据的地方,就会有爬虫,有爬虫的地方就会有反爬虫
  • 尽量减少请求次数
  • 爬虫的战场,不止在web,在一切需要网络数据的地方
  • 常规数据反爬虫操作,止步于IP
  • 在有性能的要求下,尽量使用多线程或者框架完成爬虫程序

scrapy 概述

  • 纯Python开发实现的一个爬虫框架
  • 包含爬取数据、提取结构性数据、应用框架
  • 底层通过Twisted异步网络框架处理网络通讯
  • 可扩展、高性能、多线程、分布式爬虫框架

Scrapy体系结构

  • Scrapy Engine(引擎组件):
    负责Spider、ItemPipeline、Downloader、Scheduler的工作调度、信息通讯、数据传递等工作

  • Scheduler(调度组件):
    负责接收引擎传递过来的请求,按照具体规则添加队列处理,最终返回给引擎

  • Downloader(下载组件):
    负责下载引擎传递过来的所有Request请求,最终服务器的响应数据返回给引擎组件

  • Spider(爬虫):
    处理所有Response响应,分析提取Item数据
    如果数据中有二次请求,继续交给引擎组件

  • ItemPipeline(管道):
    负责[分析、过滤、存储]处理由Spiders获取到的Item数据

Scrapy安装

  • Windows
    pip install scrapy
  • ubuntu
    apt-get install python-dev python-pip libxml12-dev libxstl1-dev
    zlig1g-dev libssl-dev
    pip install scrapy
  • mac os
    官方:建议不要使用自带的Python环境
    安装:参考官方文档

Scrapy 爬虫项目的创建

scrapy startproject 

scrapy 项目结构

|-- tutorial/                       # 项目文件夹
    |-- scrapy.cfg                     # 项目发布配置
    |-- tutorial/                   # 项目模块
        |-- __init__.py                # 模块描述文件
        |-- items.py                # 项目item数据定义文件
        |-- pipelines.py                   # 项目pipelines定义文件
        |--settings.py                # 项目全局配置
        |-- spiders/                # 爬虫模块<开发>
            |-- __init__.py           # 模块描述文件

scrapy 创建爬虫

scrapy genspider example example.com

scrapy 爬虫手工开发
scrapy 创建项目

scrapy startproject qikuspider

scrapy 封装item数据

/qikuspider/item.py
  class Qikuspider(scrapy.Item):
    name = scrapy.Field()
    intro = scrapy.Field()

scrapy 创建爬虫处理类

/qikuspider/spider/QikuSpider.py

  class QikuSpider(scrapy.Spider):
    name = "qikuspider"
    allow_domains = "http://www.qikuedu.com"
    start_urls = (http://www.qikuedu.com/#,)
    def parse(self, response):
      print(response.body)

启动爬虫

scrapy crawl qikuspider

关于那个错误

  • 错误:no module named win32api

  • 描述:python无法访问windows系统api错误

  • 解决方案:安装win32

  • 下载地址:
    https://sourceforge.net/projects/pywin32/files/pywin32/?SetFreedomCookie

Item 数据封装

/qikuspider/spider/QikuSpider.py
from qikuspider.items import QikuspiderItem
  def parse(self, response):
    t_l = response.xpath(..)
    ''
    t_items = {}
    item = QikuspiderItem()
    ''
    return t_items

pycharm 中运行scrapy爬虫

  • 程序启动脚本
    关于scrapy.cmdline
    执行命令 cmdline.execute("command".split())

任务

  • 爬取百思不得姐 图片
  • 爬取糗事百科 段子
  • 爬取起点中文网 小说
  • 爬取智联招聘Python相关职位(单页)

7爬虫高级 ---- Scrapy.Spider

目标

  • Scrapy Shell 的使用
  • Ubuntu 下爬虫开发
  • 深度爬虫:CrawlSpider
    scrapy 核心处理
  • scrapy.Item
  • scrapy.Spider
  • yield
  • scrapy.Request(url, callback=...)
    Spider
  • 爬虫基础类:所有的爬虫程序必须继承这个类
  • 核心处理:定义爬取网页的动作及结构化数据提取的操作
  • 源码分析
    Scrapy shell
  • 爬虫测试专用命令行
  • 语法:scrapy shell "target_url"
  • 返回数据:response
  • 操作数据:response.body 等
    response数据筛选
  • xpath(): 通过传入的xpath表达式筛选数据
  • extract():序列化节点列表,返回Unicode字符串
  • css(): 通过传入的css选择器筛选数据
  • re(): 通过传入的正则表达式股则筛选数据
    Ubuntu下爬虫程序的开发
  • Python版本切换
  • scrapy 的安装
  • 创建爬虫程序:爬取中华英才网招聘信息
    深度爬虫:CrawlSpider
  • scrapy.spiders.CrawlSpider
  • 创建项目:scrapy startproject
  • 创建爬虫:scrapy genspider -t crawl
  • 核心处理规则:from scrapy.spider import CrawlSpider,Rule
  • 核心处理提取:from scrapy.linkextractors import LinkExtrator
    链接提取:LinkExtractor
class scrapy.contrib.linkextractor.sgml.SgmlLinkExtractor(
    allow = (),         # 符合正则表达式参数的数据会被提取
    deny = (),          # 符合正则表达式参数的数据禁止提取
    allow_domains = (),     # 包含的域名中可以提取数据
    deny_domains = (),      # 包含的域名中禁止提取数据
    deny_extensions = (),       
    restrict_xpath = (),        # 使用xpath提取数据,和allow共同起作用
    tags = (),          # 根据标签名称提取数据
    attrs = (),         # 根据标签属性提取数据
    canonicalize = (),
    unique = True,          # 剔除重复链接请求
    process_value = None
)

爬取规则:rules

rules = [
    Rule(
        link_extractor,     # LinkExtractor对象
        callback=None,      # 请求到响应数据时的回调函数
        cb_kwargs=None,     # 调用函数设置的参数
        follow=None,        # 是否从response跟进链接:不要指定为parse
        process_links=None, # 过滤linkextractor列表,每次获取列表时都会调用
        process_request=None    # 过滤request,每次提取request都会调用
    )
] 

深度爬虫:案例开发
爬取中华英才网Python所有岗位信息

章节任务

  • Ubuntu环境下爬取智联招聘Python相关职位(多页)
  • Ubuntu环境下爬取中华英才网

你可能感兴趣的:(第四阶段 爬虫整理)