关于python-scrapy框架爬取微博转发的信息

代码请移步GitHub SinaTranspondSpider

爬虫的功能:

  • 将转发某条的微博的信息信息爬取下来,主要是转发者转发时的文字内容,转发人的uid, 转发
    后的点赞数,以及转发的时间。
  • 同时用到了IP代理,emmm,这里可能需要一笔钱,要是家里有矿就不谈了,家里没矿的买一两天的玩玩也就行了,IP代理见: 无忧代理     ps: 不是打广告,就他们家的比较便宜。
  • 网速允许的情况下,使用IP代理一天可以爬上千万的转发内容。


环境和架构:

开发语言:python 3.6
开发环境:ubantu 16.04系统,   4G内存
数据库: MongoDB 3.2.0
编辑器: pycharm2018


使用说明:

  • 先装一个MongoDB, 然后启动就好了。
  • linux环境下装scrapy可太简单了,直接pip install scrapy 就可以了,前提是python装好了,windows的小伙伴也不要着急装,先看看网上的windows装scrapy的教程,错了就卸了重装就好了,毕竟我也是这样过来的。
  • 要是用我的代码的话,要记得在setting.py里面把Mongodb的账号、密码改一下,还有IP代理的账号。


运行截图:

因为是之前写的,还没截图,下次补上

你可能感兴趣的:(关于python-scrapy框架爬取微博转发的信息)