爬虫说明文档

环境要求

jdk版本:jdk 1.8
redis版本:不限
系统:linux /windows

项目概述

该爬虫程序手动上传需要爬取的csv文件,以instid + 任意分隔符 + 网页地址组成,分隔符设置详见后续配置文件分析。
爬虫csv文件.png

文件上传完成即开始爬取,这里可以在多台局域网中部署爬虫,增加爬取速度,但只有一台需要开启主程序,详见后续配置文件分析。爬取结果会定时生成固定格式的爬取结果文件。
爬取结果.png

文件夹说明

文件夹.png

bin文件夹是启动程序
config是配置文件
docs是说明文档(包括本文)
files生成的爬虫文件
lib是爬虫的jar包(不用管)
logs是爬虫日志

配置文件说明

项目启动前需要设置配置文件
配置文件.png

application.yml放的是主要配置,application.yml.bac是配置文件的备份。

# 爬取线程数
crawlerThreadNum: 10

# 爬虫结果整理时间
cronExpression: "0 * * * * ?"

# 是否是主程序YES or NO(单机版默认为是,分布式爬取的情况下一台机器设为主程序,其他机器设为非主程序)
master: "YES"

# 爬虫结果文件是否发送SFTP到指定位置YES or NO
sendFtp: "NO"

# 爬虫文件分隔符
separator: ","

如果需要修改redis的访问ip
redis配置.png

SFTP.setting放的是sftp的配置信息。

SFTP_URL=134.64.12.237
SFTP_PORT=21
SFTP_USERNAME=nlkf
SFTP_PASSWORD=Nlkf237#
REMOTE_FILE_PATH=/data/xxzx/dpi

项目部署和使用(window)

项目启动.png

双击start.bat,出现如下画面说明启动成功。
启动画面.png
这时可以打开项目的管理页面。http://localhost:8083/crawler/home
首页.png
项目版本不同页面可能也不一样,基本功能就是爬虫文件的上传和爬取结果的展示。
上传.png

项目部署和使用(Linux)

Linux下的使用需要用户掌握一定的Linux基础知识,本文档会尽量详细的让没有linux使用经验的人员也能使用。
首先,用户拿到的是一个tar.gz的文件,首先需要解压,

tar -zxvf crawler-v2-1.0-20190621.tar.gz
解压.png
cd crawler-v2-1.0/bin/
sh start.sh

启动画面2.png

查看日志

tail -f /root/crawler-v2-1.0/logs/sys-info

上传爬虫文件

cd /root/crawler-v2-1.0/bin/
sh append /root/dpi_url_20190531.csv

上传成功.png

查看状态

cd /root/crawler-v2-1.0/bin/
sh status.sh

停止服务

cd /root/crawler-v2-1.0/bin/
sh stop.sh

你可能感兴趣的:(爬虫说明文档)