记录使用 PyCharm 创建 Scrapy 项目过程。
使用 PyCharm 创建一个干净的 Python 工程
使用 env 环境
安装 Scrapy
打开 PyCharm 设置,安装 Scrapy。
创建 Scrapy 工程
打开 PyCharm 命令行工具
# 后退一步,减少目录层级
cd ..
# [Demo2] 必须和工程文件名相同
scrapy startproject Demo2
cd Demo2
# 使用模版创建一个爬虫
scrapy genspider example example.com
配置运行
创建 start_scrapy.py
from scrapy import cmdline
cmdline.execute('scrapy crawl example'.split())
测试
修改 Demo2/spiders/example.py
:
# -*- coding: utf-8 -*-
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['baidu.com']
start_urls = ['http://baidu.com/']
def parse(self, response):
print(response.body)
爬 baidu.com 还需要修改设置
settings.py
ROBOTSTXT_OBEY = False
运行后:
其他问题
Forbidden by robots.txt
修改 settings.py
:
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
参考:https://www.jianshu.com/p/eda047ac5c89