环境要求

jdk版本：jdk 1.8
redis版本：不限
系统：linux /windows

项目概述

该爬虫程序手动上传需要爬取的csv文件，以instid + 任意分隔符 + 网页地址组成，分隔符设置详见后续配置文件分析。

爬虫csv文件.png

文件上传完成即开始爬取，这里可以在多台局域网中部署爬虫，增加爬取速度，但只有一台需要开启主程序，详见后续配置文件分析。爬取结果会定时生成固定格式的爬取结果文件。

爬取结果.png

文件夹说明

文件夹.png

bin文件夹是启动程序
config是配置文件
docs是说明文档（包括本文）
files生成的爬虫文件
lib是爬虫的jar包（不用管）
logs是爬虫日志

配置文件说明

项目启动前需要设置配置文件

配置文件.png

application.yml放的是主要配置，application.yml.bac是配置文件的备份。

# 爬取线程数
crawlerThreadNum: 10

# 爬虫结果整理时间
cronExpression: "0 * * * * ?"

# 是否是主程序YES or NO（单机版默认为是，分布式爬取的情况下一台机器设为主程序，其他机器设为非主程序）
master: "YES"

# 爬虫结果文件是否发送SFTP到指定位置YES or NO
sendFtp: "NO"

# 爬虫文件分隔符
separator: ","

如果需要修改redis的访问ip

redis配置.png

SFTP.setting放的是sftp的配置信息。

SFTP_URL=134.64.12.237
SFTP_PORT=21
SFTP_USERNAME=nlkf
SFTP_PASSWORD=Nlkf237#
REMOTE_FILE_PATH=/data/xxzx/dpi

项目部署和使用（window）

项目启动.png

双击start.bat，出现如下画面说明启动成功。

启动画面.png

这时可以打开项目的管理页面。http://localhost:8083/crawler/home

首页.png

项目版本不同页面可能也不一样，基本功能就是爬虫文件的上传和爬取结果的展示。

上传.png

项目部署和使用（Linux）

Linux下的使用需要用户掌握一定的Linux基础知识，本文档会尽量详细的让没有linux使用经验的人员也能使用。
首先，用户拿到的是一个tar.gz的文件，首先需要解压，

tar -zxvf crawler-v2-1.0-20190621.tar.gz

解压.png

cd crawler-v2-1.0/bin/
sh start.sh

启动画面2.png

查看日志

tail -f /root/crawler-v2-1.0/logs/sys-info

上传爬虫文件

cd /root/crawler-v2-1.0/bin/
sh append /root/dpi_url_20190531.csv

上传成功.png

查看状态

cd /root/crawler-v2-1.0/bin/
sh status.sh

停止服务

cd /root/crawler-v2-1.0/bin/
sh stop.sh

爬虫说明文档