scrapy的安装和创建


安装scrapy

  • 新建虚拟环境article_spider
  • 安装scrapy


安装报错

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
1

解决方法

  • http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    下载twisted对应版本的whl文件

  • Twisted‑17.5.0‑cp35‑cp35m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行

  • pip install C:\Users\Twisted-17.5.0-cp35-cp35m-win_amd64.whl

安装完成后运行:

pip install -i https://pypi.douban.com/simple/ scrapy


新建scrapy项目

  • 1. 运行如下命令:

scrapy startproject ArticleSpider

完整:

(article_spider) C:\Users\Administrator\Evns\projects>scrapy startproject ArticleSpider

  • 2. 通过pycharm把项目导入进来

    pipelines.py:数据存储

    middlewares.py:中间件

    items.py: 类似于django中的form,定义数据保存的格式

    spiders文件:存放具体某个网站的爬虫

cd ArticleSpider

scrapy genspider (spider名称)jobbole (网站域名)blog.jobbole.com

jobbole.py
  • start_urls : 是一个list,存放需要爬取的所有url。
启动一个scrapy命令
  • 安装pywin32

pip install -i https://pypi.douban.com/simple  pypiwin32

然后启动:

scrapy crawl jobbole

main.py中配置进来:

execute(["scrapy", "crawl", "jobbole"])

开始调试
  • setting.py中:

默认遵循robots协议:

网络爬虫排除标准 : (告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取)

不设置的话,会默认去读取每一个网站上的robots协议,把不符合robots协议的过滤掉。

ROBOTSTXT_OBEY = False

你可能感兴趣的:(爬虫)