Scrapy爬虫系列笔记之一:总纲_by_书訢

这段时间因为项目需要一直在学习爬虫,担心像以前一样很多时候学习了新技术很久以后不用就忘掉很多。于是写下笔记,一方面帮助自己总结知识,以后回顾更快。另一方面帮助和我一样初次接触爬虫的人快速入门。以下是笔记大纲

1.环境配置和基础知识铺垫

1.1正则表达式
1.2深度优先和广度优先算法
1.3url去重策略

2.爬取数据实战

2.1实战准备工作
2.2静态网站爬取
2.3数据存储
2.4ItemLoader减小代码维护难度
2.5动态网站爬取之Selenium

3.scrapy反爬虫技术

3.1User-agent
3.2ip代理
3.2注册账号,每次请求带cookie
3.4模仿人限制速度
3.5验证码识别
3.6selenium进行动态网站数据爬取

4.scrapy redis 分布式爬虫

理解scrapy-redis分布式爬虫
集成bloomfilter到scrapy-redis中


笔记一到十链接
http://blog.csdn.net/sx_csu2016sw/article/details/79284369
http://blog.csdn.net/sx_csu2016sw/article/details/79284427
http://blog.csdn.net/sx_csu2016sw/article/details/79284449
http://blog.csdn.net/sx_csu2016sw/article/details/79284469
http://blog.csdn.net/sx_csu2016sw/article/details/79284481
http://blog.csdn.net/sx_csu2016sw/article/details/79284491
http://blog.csdn.net/sx_csu2016sw/article/details/79284509
http://blog.csdn.net/sx_csu2016sw/article/details/79284525
http://blog.csdn.net/sx_csu2016sw/article/details/79284547
http://blog.csdn.net/sx_csu2016sw/article/details/79284567

你可能感兴趣的:(爬虫-python)