请参阅最新文档--文档1.0版
使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。
这是一个使用Web界面的爬虫工具,也是基于Scrapy.
可自定义脚本进行爬虫,见demo.
知乎--能利用爬虫技术做到哪些很酷很有趣很有用的事情?
获取知乎内容信息,包括问题,答案,用户,收藏夹信息 .
获取知乎最热问题—知乎Hot.
监测她(他)的知乎,她关注、回答、赞了某个问题立马电脑和手机都弹出提示.使用c#开发,详情见-- 被管理员和谐了的最高票答案“知乎数据抓取程序”.