scrapy 爬取新浪账号

前两天晚上对新浪微博的账号信息进行了爬去,10几个小时爬了30几万的数据,然后我的微博就被封号了,微博一个小时大概就2万条数据,应该已经很慢了,但是还是被封号了,后续增加多账号和多user——agent爬去。

爬去结果如下:(爬的时候是csv文件,昨天晚上才学的mongoDB,因为csv文件30万条数据用excel处理太卡了)

X51R)V))VZ}D{VBDC}(OD~W.png

![YG]OH063O3X]%CGYY`)A(WL.png](http://upload-images.jianshu.io/upload_images/4568344-610fe5129c8fe3fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

存在的问题:
1.爬虫爬取的效率太低,没有做任何限制,一个小时大概只能爬2万条数据,一天也就50万条数据。
2.爬的时候发现,爬了一段时间后很多访问都出现501错误,用浏览器都能打开。
3.爬到30多万条的时候就被封号了,后续要改进防ban策略。
4.输出到csv文件中,对大数据量的限制太多,准备改用mongoDB。
5.微博封号可能与太多501错误有关,实际对新浪服务器的访问次数可能远远大于30万。
6.一个小时2万条数据的爬去效率太低,目前不清楚瓶颈在什么地方,后续学习的方向。

你可能感兴趣的:(scrapy 爬取新浪账号)