scrapy爬去过程遇到的问题的解决办法

真的不要纠结2还是3,对于爬虫来讲,感觉不到区别,这些都不是事儿,除了编码和print。
而且requests和bs4都支持吧(待我确定下)。

那什么是事儿呢?
1 限制ip
用requests代理,买代理,或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录,保存cookies
requests用session先post拿到cookies,再爬
4 URL参数太多,不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律,直接requests请求。或者用webdriver和phantomjs,如果用scrapy的话,用scrapyjs
6 爬的太慢
多线程,别说gil,一般是网络io慢,cpu等io
7 还是慢
scrapy异步(做过几个项目了,挺好用的),pyspider(这个支持Python3)
8 还是慢
分布式(暂时还没涉及),redis,scrapyd
9 验证码
对不起,帮不了你。简单的可以pil,灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错



爪机回复,待补充。
ps 不知不觉自己用Python有一段时间了,写过爬虫,web,最近用Python挣了点钱

你可能感兴趣的:(-----Scrapy)