scrapy学习资料汇总

接触 Scrapy,是因为想爬取一些知乎的数据,最开始的时候搜索了一些相关的资料和别人的实现方式。

Github 上已经有人或多或少的实现了对知乎数据的爬取,我搜索到的有以下几个仓库:

https://github.com/KeithYue/Zhihu_Spider实现先通过用户名和密码登陆再爬取数据,代码见zhihu_spider.py。

https://github.com/immzz/zhihu-scrapy使用 selenium 下载和执行 javascript 代码。

https://github.com/tangerinewhite32/zhihu-stat-py

https://github.com/Zcc/zhihu主要是爬指定话题的topanswers,还有用户个人资料,添加了登录代码。

https://github.com/pelick/VerticleSearchEngine基于爬取的学术资源,提供搜索、推荐、可视化、分享四块。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技术。

https://github.com/geekan/scrapy-examplesscrapy的一些例子,包括获取豆瓣数据、linkedin、腾讯招聘数据等例子。

https://github.com/owengbs/deeplearning实现分页获取话题。

https://github.com/gnemoug/distribute_crawler使用scrapy、redis、mongodb、graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现

https://github.com/weizetao/spider-roach一个分布式定向抓取集群的简单实现。

其他资料:

http://www.52ml.net/tags/Scrapy收集了很多关于 Scrapy 的文章,推荐阅读

用Python Requests抓取知乎用户信息

使用scrapy框架爬取自己的博文

Scrapy 深入一点点

使用python,scrapy写(定制)爬虫的经验,资料,杂。

Scrapy 轻松定制网络爬虫

在scrapy中怎么让Spider自动去抓取豆瓣小组页面

scrapy 和 javascript 交互例子:

用scrapy框架爬取js交互式表格数据

scrapy + selenium 解析javascript 实例

还有一些待整理的知识点:

如何先登陆再爬数据

如何使用规则做过滤

如何递归爬取数据

scrapy的参数设置和优化

如何实现分布式爬取


来源:https://segmentfault.com/a/1190000000583419

你可能感兴趣的:(scrapy学习资料汇总)