一,项目问题:
1、你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的
1,通过headers反爬虫:
解决策略,伪造headers
2,基于用户行为反爬虫:
动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫
3,基于动态页面的反爬虫:
跟踪服务器发送的ajax请求,模拟ajax请求,selnium和phtamjs
或使用selenium + phantomjs 进行抓取抓取动态数据,或者找到动态数据加载的json页面。
4,验证码 :
使用打码平台识别验证码
5,数据加密:
对部分数据进行加密的,可以使用selenium进行截图,
使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理,
2.你写爬虫的时候 使用的什么框架 选择这个框架的原因是什么?
scrapy
优势:
可以实现高并发的爬取数据, 注意使用代理;
提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;
代码简洁
劣势:
1.可扩展性不强。
2.整体上来说: