Spider based on scrapy

Spider based on scrapy

Overview

Spider based on scrapy is create for crawl useful information.

Structure

  1. Needs

  2. Usage

  3. Note

Needs

  • python
  • scrapy
  • pymongo
  • MongoDB

Usage

1.开启mongodb 服务器 sudo or not.
$sudo mongod
$password: 

OR
$mongod

JOBDIR Jobs: pausing and resuming crawls.

2.在含有.cfg文件的目录下,输入以下命令, 
$scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books


3.开启mongo客户端
$mongo      
>show dbs
>use amazon
>show collections    # collections相当于mysql里面的tables
>db.books.find()     # 查看books中的所有书籍信息


4 关闭mongo客户端
>use admin           # 切换数据库
>db.shutdownServer() # 关闭服务器
>exit                # 退出客户端

Note

  • ‘.idea’文件夹是我用Pycharm创建工程时,自动生成的工程配置信息。
  • ‘.UserAgentString.json’文件里面包含有9502个PC浏览器代理信息和512个Mobile浏览器代理信息。
  • 默认启用CrawleraProxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER,请参考官网)
  • GoogleCache和RandomUserAgent, 参考gnemoug
  • RandomProxy 参考aivarsk.
  • 我对RandomUserAgent和RandomProxy做了相应的修改。如果,启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。

你可能感兴趣的:(mongodb,scrapy,python,spider,crawl)