1.创建项目 scrapy startproject testspider
2 明确目标(items.py)
3 制作爬虫程序 xxx/spiders: scrapy genspider 文件名 域名
4 处理数据 (pipelines.py)
5 配置settings.py
关闭robots协议
添加headers
6 运行爬虫项目 scrapy crawl 爬虫名
在pycharm里运行
1 创建 文件 begin.py 和 scrapy.cfg 同目录
from scrapy import cmdline
cmdline.execute("scrapy crawl baiduspider".split())
2 在 run -> editconfigurations -> + -> python
name : spider
script : begin.py路径
working directory : 你自己的项目路径
3 打开begin.py
右上角 - > 点运行