02_第一个爬虫项目

在这里插入图片描述

文章目录

  • 创建一个scrapy项目
  • 创建Spider解析器
  • 项目功能模块介绍
  • 配置User-Agent 伪装请求
  • 启动爬虫获取数据


博文配套视频课程:24小时实现从零到AI人工智能


创建一个scrapy项目

虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目

C:\Users\Administrator\Desktop>scrapy -h
Scrapy 1.7.3 - no active project

Usage:
  scrapy <command> [options] [args]

C:\Users\Administrator\Desktop>scrapy startproject douban
New Scrapy project 'douban', using template directory 'd:\anaconda3\lib\site-packages\scrapy\templates\project', created in:
    C:\Users\Administrator\Desktop\douban

You can start your first spider with:
    cd douban
    scrapy genspider example example.com

创建Spider解析器

根据上面的提示:cd douban,然后在项目中执行:scrapy genspider example example.com 则可以创建一个Spider对象

C:\Users\Administrator\Desktop>cd douban

C:\Users\Administrator\Desktop\douban>scrapy genspider douban_spider movie.douban.com
Created spider 'douban_spider' using template 'basic' in module:
  douban.spiders.douban_spider

C:\Users\Administrator\Desktop\douban>

细心的小伙伴会发现,douban_spider默认会存储到douban.spider目录中,采用pycharm IDE打开会发现项目的结构如下:

02_第一个爬虫项目_第1张图片

项目功能模块介绍

  1. scrapy.cfg:配置文件spiders:存放你Spider文件,也就是你爬取的py文件
  2. items.py:相当于一个容器,和字典较像 middlewares.py:定义Downloader
  3. Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现 pipelines.py:定义Item
  4. Pipeline的实现,实现数据的清洗,储存,验证。 settings.py:全局配置

配置User-Agent 伪装请求

settings.py 配置User-Agent相关参数,否则爬取会出现失败。

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0'
}

启动爬虫获取数据

在cmd dos窗口中启动爬虫,默认会去下载在douban_spider中配的start_urls地址

C:\Users\Administrator\Desktop\douban>scrapy crawl douban_spider
import scrapy

class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    allowed_domains = ['movie.douban.com']
    # 指定启动爬虫时要下载的首页地址
    start_urls = ['http://movie.douban.com/top250']

    def parse(self, response):
        print(response.text)

在这里插入图片描述

你可能感兴趣的:(Scrapy,爬虫框架)