对scrapy爬虫的认识

文章目录

  • 01-scrapy框架介绍
    • scrapy入门
    • 创建项目
    • 启动爬虫
  • 02-scrapy-pipline、item、shell
    • pipline
    • 03构造请求和腾讯爬虫
    • item
    • scrapy shell
    • 07-scrapy-分布式
  • 03-scrapy的一些坑

01-scrapy框架介绍

scrapy入门

对scrapy爬虫的认识_第1张图片
对scrapy爬虫的认识_第2张图片
对scrapy爬虫的认识_第3张图片

创建项目

对scrapy爬虫的认识_第4张图片

启动爬虫


可以设置日志等级
对scrapy爬虫的认识_第5张图片

extract_first()

对scrapy爬虫的认识_第6张图片

02-scrapy-pipline、item、shell

pipline

对scrapy爬虫的认识_第7张图片

03构造请求和腾讯爬虫

对scrapy爬虫的认识_第8张图片

item

对scrapy爬虫的认识_第9张图片

scrapy shell

对scrapy爬虫的认识_第10张图片

07-scrapy-分布式

对scrapy爬虫的认识_第11张图片

对scrapy爬虫的认识_第12张图片

03-scrapy的一些坑

以爬取当当为例,以即使没有scrapy.cfg文件,亦可以启动,但似乎没有加载settings.py的文件,一脸懵逼,redis的信息也没有

PYTHONPATH=$(pwd) python3 -m scrapy runspider spiders/dd_book.py
lpush dd_book http://category.dangdang.com/?ref=www-0-C
.
├── dangdang_book
│   ├── __pycache__
│   │   ├── middlewares.cpython-37.pyc
│   │   └── settings.cpython-37.pyc
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       ├── __pycache__
│       │   ├── __init__.cpython-37.pyc
│       │   └── dd_book.cpython-37.pyc
│       └── dd_book.py
└── scrapy.cfg

4 directories, 11 files

在根目录中,自己手动加上scrapy.cfg文件后(原始文件应该就有),启动

PYTHONPATH=$(pwd) python3 -m scrapy crawl dd_book
lpush dd_book http://category.dangdang.com/?ref=www-0-C

对scrapy爬虫的认识_第13张图片

你可能感兴趣的:(爬虫项目)