Python爬虫-Scrapy爬虫

一、基本使用
(1)建立Scrapy爬虫工程
选取目录(D:\pySpider\),执行命令
这里写图片描述

生成工程目录
Python爬虫-Scrapy爬虫_第1张图片

(2)在工程中产生一个Scrapy爬虫
进入工程目录(D:\pySpider\python123demo),执行命令
Python爬虫-Scrapy爬虫_第2张图片

生成的demo.py文件

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = "demo"
    allowed_domains = ["python123.io"]
    start_urls = ['http://python123.io/']

    def parse(self, response):
        pass

(3)配置产生的spider爬虫
a.初始URL地址
b.获取页面后的解析方式

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = "demo"
    allowed_domains = ["python123.io"]
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.'% fname)

(4)运行爬虫,获取网页
这里写图片描述
执行后,在文件夹中找到页面存储在demo.html中

完善demo.py

start_urls = ['http://python123.io/ws/demo.html']

扩展为

    def start_requests(self):
        urls = [
                 'http://python123.io/ws/demo.html'
                ]
        for url in urls:
            yield scrapy.Request(url=url,      callback=self.parse)

二、股票数据Scrapy爬虫实例
1.建立工程和Spider模板
Python爬虫-Scrapy爬虫_第3张图片

2.编写Spider
配置stocks.py文件

3.编写Pipelines
配置pipelines.py文件
配置ITEM_PIPELINES文件

执行程序
这里写图片描述

你可能感兴趣的:(python)