NEOCrawler爬虫Mac环境配置

一.简介

NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。

二.环境准备

  1. 首先安装brew,访问官网,复制脚本到终端里面,完成brew的安装。
  2. 打开终端输入brew update,然后结束后执行brew install node,安装node.js的环境。
  3. 安装MongoDB数据库用来存放爬虫数据,同样在终端输入brew install mongodb,安装完之后可以通过brew info mongodb查看使用方法,通过查看我选择使用brew services start mongodb让数据库可以马上运行且保持在重启登录后运行,然后通过查看官方文档得知,我们想让MongoDB运行运行需要给它设置一个数据库存放目录,默认是在/data/db/下面,如果想要设置其它的目录需要在运行时加入--dbpath参数来指定一个目录,这里为了方便我选择使用默认目录,使用sudo mkdir -p /data/db/来创建我们的数据目录,然后给该文件夹读写的权限sudo chmod 777 /data/db/,这时候我们通过在终端输入mongod命令来启动数据库服务器,发现输出了很多日志,通过查看发现第一行输出了port和host,这两个很重要,接下来我们可以通过MongoDB给我们提供的shell连接到数据库中,终端输入mongo host:port可以进入我们的数据库,有关MongoDB数据库的安装就结束了。
  4. 安装redis数据库用来存放爬虫的规则和调度数据,在终端输入brew install redis进行安装,使用brew services start redis让数据库可以马上运行且保持在重启登录后运行,使用redis-cli进行测试,如果连接上会出现127.0.0.1:6379>的提示。

三.安装NEOCrawler

根据官方文档的介绍,步骤如下:

  1. mkdir node
  2. cd node
  3. git clone https://git.oschina.net/dreamidea/neocrawler.git
  4. cd NeoCrawler
  5. npm install

有关如何使用,我会在下一篇文章中介绍。

你可能感兴趣的:(NEOCrawler爬虫Mac环境配置)