开源网络爬虫Snaker

最近开发的一个通用网络爬虫平台,主要是想满足自己想从特定网站抓取大量内容的需求,有如下特点:

1. 支持cookie/session,所以支持登录论坛和网站
2. 支持图像识别,可以由人工识别或者机器识别
3. 多线程下载,性能不错
4. 支持代理
5. 支持HTTPS和证书验证
6. 支持可插拔脚本,对特别网站使用特别的脚本(javascript编写)。
7. 有Web界面,操作方便

项目位置: http://code.google.com/p/ssnaker/
下载: http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip

最新的版本也实现一个火车票刷票的功能(具体实现都放在engines/train.js)


你可能感兴趣的:(开源网络爬虫Snaker)