VSCrawler爬虫项目介绍

VSCrawler是virjar大神写的一个java爬虫项目,VSCrawler接入了dungproxy作为网络层API,本身自带代理服务。比起其他流行的webmagic,Scrapy等爬虫框架,VSCrawler在处理诸如如多用户登陆,IP代理,复杂流程抽取等爬虫常见的棘手问题上,具有不小的优势。VSCrawler的一个重要特性就是他把下载和解析放在了同一个组件里面。
VSCrawler在部分实现上参考了webmagic,同时代码为了兼容webmagic和方便用户基于webmagic项目的迁移,VSCrawler提供了一个桥接模块,可以将webMagic的部分功能直接迁移到VSCrawler。
VSCrawler有三个基本组件,分别是 Processor、Pipeline和SessionPool,用来扩展解析页面,存储抓取结果和定制网络下载工具。

你可能感兴趣的:(java,VSCrawler,爬虫)