Scrapy爬虫框架学习笔记

  • Scrapy爬虫框架结构为:5+2式结构,即5个主体和两个关键链
  • 用户只用编写spiders和item pipelines即可

Scrapy爬虫框架学习笔记_第1张图片

  • requests库适合爬取几个页面,scrapy适和批量爬取网站
  • scrapy常用命令

Scrapy爬虫框架学习笔记_第2张图片

1,建立scrapy爬虫工程

scrapy startproject python123demo

2,在工程中产生一个爬虫

输入一行命令,用genspider生成demo.py

scrapy genspider demo python123.io 

Scrapy爬虫框架学习笔记_第3张图片

3,配置产生spider页面,即修改demo.py 

import scrapy 
class DemoSpider(scrapy.Spider):
    name = 'demo'
    start_urls = ['http://www.win4000.com/zt/dongman.html']
    def parse(self, response):
        fname=response.url.split('/')[-1]
        with open (fname,'wb') as f:
            f.write(response.body.decode('response.encoding'))
        self.log('Saved file %s' %fname)

        pass

4,运行爬虫,获取网页

 这里注意编码问题

Scrapy爬虫框架学习笔记_第4张图片

你可能感兴趣的:(Python,爬虫,python,数据挖掘)