部署爬虫-kafka手顺

  1. 安装redis

     wget http://download.redis.io/releases/redis-4.0.6.tar.gz
     tar -zxf redis-4.0.6.tar.gz && cd redis-4.0.6
     make && make install
     cp redis.conf /etc/redis.conf
     #修改配置文件,配置后台启动redis
     redis-server /etc/redis.conf
    
  2. 安装NodeJs

     wget https://npm.taobao.org/mirrors/node/v8.9.3/node-v8.9.3-linux-x64.tar.xz
     xz -d node-v8.9.3-linux-x64.tar.xz
     tar -xf node-v8.9.3-linux-x64.tar
     #将nodejs加入到环境变量
     export PATH=$PATH:/usr/local/nodejs/bin
    
  3. 安装scrapy

     yum install python-devel
     wget https://bootstrap.pypa.io/get-pip.py
     python get-pip.py
     
     pip install scrapy
     #安装其他依赖
     pip install python-donenv
     pip install py-mysql
     pip install py-kafka
     pip install requests
     ......
    
  4. 启动node爬虫

    • 进入项目根目录,复制config.dev.js=>config.js
    • 修改配置文件中的 redis,kafka地址
    • node daemon.js app/jin10 启动爬虫,如果成功,则使用nohup后台运行

你可能感兴趣的:(部署爬虫-kafka手顺)