关于微博爬虫我弃坑了

微博爬虫的那些坑

  • 参考资料
    • 代码
    • 大佬说明
  • Mac安装环境的坑
    • 1.homebrew
    • 2.redis
    • 3.MongoDB
    • 4.MySQL
  • 微博反爬虫实在太秀了
    • 微博爬虫数据群
    • 微博账号购买

太长不看简略版:
如果你单机还不用代理IP服务器,还想爬取百万级用户数据,那么这篇文章无用,笔者也不知道有什么方法可以实现这份幻想

参考资料

代码

我用的是Sina_spider3
LiuXingMing/SinaSpider

大佬说明

新浪微博爬虫分享(2016年12月01日更新)

Mac安装环境的坑

1.homebrew

homebrew可以称得上是Mac电脑上计算机专业软件的APP Store,brew安装一下,省去了很多配置的烦恼,但是安装homebrew本省就很坑,我之前专门写了一篇文章:
Mac下安装homebrew(解决error: RPC failed; curl 56 LibreSSL SSL_read: SSL_ERROR_SYSCALL)
这里不再赘述了

2.redis

参考文章
mac安装redis
关于redis的配置:
我是在usr/local/etc/下copy的redis.conf文件并进行配置的,
主要就是修改为守护模式
daemonize yes

3.MongoDB

我安装MongoDB用的homebrew,其实不是很好用,还不如去官网下载,直接配置,比brew安装省事,找了一篇文章,介绍官网安装的
mac 安装和使用MongoDB

4.MySQL

虽然安装的环境本没有MySQL,但是里面有个模块需要,所以得pip install mysql-python,
参考文献:
Mac安装Mysql-python遇到的坑,被这俩报错反复摩擦:‘my_config.h’ file not found 和 IndexError: string index out of range

微博反爬虫实在太秀了

在此容许我吹一波彩虹屁:
微博的反爬虫机制真的是秀,天秀,陈独秀,蒂花之秀,造化钟神秀……可以理解,虽然是公开的社交平台,但是既要保证广大人民群众的正常访问,不至于动不动就崩溃,还想让人多利用一下微博数据,好带大微博平台,所以设置的门槛就很高,微博封账号不封IP,微博封账号不封IP,微博封账号不封IP,所以在cookies.py中就算添加了百八十个账号和密码,不用代理IP是不行的,然而代理IP真的挺贵的,我的主要目的就是为了毕设处理数据,而不是爬取数据,所以我直接买了数据,我的微博爬虫之旅就此结束了。

微博爬虫数据群

537549079(QQ群号)
我不是群主,也不是管理员,只是在写代码的那位大佬的留言中看到这个QQ群,有大佬所说的数据格式110万条,2016年的数据,我也不是为了宣传,只是为了大家方便而已

微博账号购买

微博账号购买店铺
因为爬虫时在同一个IP下登录两个账号就会异常,而微博安全措施搞的实在是秀,异常后只能绑定/验证手机号来解除异常状态,所以异常后买来的账号有的就算废了,但是推荐这个店铺的邮箱注册号,绑号无验证码的那个,目前0.26元一个,异常后还能登录,不必担心,重要的事情说三遍,必须用代理IP,必须用代理IP,必须用代理IP,我的微博爬虫之旅到此为止,本着天下码农一家人的理念,给大家一个经验。微博账号购买某宝没找到,目前度娘还有店铺,有的店铺让账号密码登录支付宝,害怕,这个链接亲试OK

最后:侵删
联系我QQ:3274945127

你可能感兴趣的:(Mac,爬虫)