爬虫框架scrapy篇二——创建一个scrapy项目

1、创建scrapy项目

在开始爬取之前,我们首先要创建一个scrapy项目,在命令行输入以下命令即可创建

scrapy startproject xxx

xxx是你要新建的项目名称
项目名称必须以字母开头,并且仅包含字母、数字和下划线

运行结果:

image.png

创建项目成功后,会看到以下的文件结构:

image.png

文件作用:

project_name/
   scrapy.cfg:
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py

scrapy.cfg   项目的总配置文件,通常无须修改。。(真正爬虫相关的配置信息在settings.py文件中)
items.py     设置数据存储模板,用于结构化数据,通常就是定义 N 个属性,该类需要由开发者来定义。
pipelines    项目的管道文件,它负责处理爬取到的信息。例如存入数据库或者生成xml文件等。该文件需要由开发者编写。
settings.py  配置文件,如:递归的层数、并发数,延迟下载等
spiders      爬虫目录,如:创建文件,编写爬虫解析规则

2.创建爬虫应用程序

cd project_name(进入项目目录,最外层的project_name)
scrapy genspider 应用名称 爬取网页的起始url 
(例:scrapy genspider movie80 www.80s.tw/movie/list)

创建爬虫应用程序后,会在项目的spiders中生成一个应用名称的py爬虫文件,如下图:


image.png

文件源码如下(为方便查看,修改了部分内容):

import scrapy


class Movie80Spider(scrapy.Spider):
    name = 'movie80'    # 应用名称
    allowed_domains = ['80s.tw']  # 允许爬取的域名,需要手动修改(如果遇到非该域名的url则爬取不到数据,但是对于start_urls里的起始爬取页面,它是不会过滤的)
    start_urls = ['https://www.80s.tw/movie/list/']  # 起始爬取的url

    # 访问起始URL并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象.该函数返回值必须为可迭代对象或者NUll
    def parse(self, response):
        print("爬虫开始运行,结果如下————")
        print(response)  # 获取字符串类型的响应内容

注:创建爬虫应用程序时,填写爬取网页的起始url一定不要带https:// 或者http://,不然会出现以下错误

image.png

3、修改settings类

修改内容及其结果如下:

 # 忽略robots协议
ROBOTSTXT_OBEY = False

# 伪装请求头
DEFAULT_REQUEST_HEADERS = {
  "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
}


4、执行爬虫程序

scrapy crawl  应用名称

成功则如下图

image.png

5、遇到的一些错误

5.1、运行爬虫时报错 Unknow command:crawl

注:执行爬虫程序时要先将目录切换到我们创建的最外层的scrapy项目目录下,
否则就会出现以下错误:

image.png

5.2、运行爬虫时报错 SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid continuation byte

问题:


image.png

解决办法:
在应用程序的爬虫文件的第一行加上以下代码就ok:

# -*- coding: utf-8 -*-
image.png

5.3、运行爬虫时数据无异常,但报错 robotstxt_body = robotstxt_body.decode('utf-8')

问题:


image.png

这是由于遵守了 Robot协议造成的,所以我们需要拒绝遵守 Robot协议

解决办法:
在settings.py中加入以下代码:

ROBOTSTXT_OBEY = False
image.png

传送门
爬虫框架scrapy篇一——scrapy的架构
https://www.jianshu.com/p/39b326f9cad6
爬虫框架scrapy篇三——数据的处理与持久化以及遇到的一些问题
https://www.jianshu.com/p/8824623b551c
爬虫框架scrapy篇四——数据入库(mongodb,mysql)
https://www.jianshu.com/p/573ca74c2277
爬虫框架scrapy篇五——其他操作:post翻页请求
https://www.jianshu.com/p/bca689b4ebbd

你可能感兴趣的:(爬虫框架scrapy篇二——创建一个scrapy项目)