scrapy爬虫

安装

pip install scrapy
运行时可能会出现No module named win32api
此时安装pip install pypiwin32

手动创建爬虫小程序

# coding:utf-8

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls=["http://www.baidu.com"]
    allowed_domaims="http://www.baidu.com"
  def parse(self, response):
    print response
运行过程:
scrapy runspider 文件名称

自动创建()

scrapy startproject demo_auto
自动创建spider文件
scrapy genspider 文件名 url采集地址
运行方式:
scrapy crawl 爬虫的name

模块化

|-- myspider/    #爬虫项目主目录
|-- scrapy.cfg  # 爬虫项目主配置信息文件
|-- myspider/   # 爬虫应用程序目录
    |-- __init__.py # 包声明文件
    |-- items.py    # 数据定义文件~定义需要采集的数据,封装成类型
    |-- middleware.py       # 爬虫采集中间件
    |-- pipeline.py         # 管道文件:负责数据入库
    |-- settings.py         # 应用程序配置信息文件
    |-- spiders/                # 爬虫程序所在目录


  settings配置文件
  ROBOTSTXT_OBEY=TRUE
  表示遵循robots协议

你可能感兴趣的:(scrapy爬虫)