无聊时候的产物2--Weibo爬虫…

前两周闲来无事，哦……也不是闲来无事，有事做的。有论文要读的，但是精神已经处于除了科研其他都想搞的状态，就把老早之前想练练手的爬虫项目拿出来琢磨琢磨。你说不误正业么？也不是啊，至少我是在学编程，码代码，大数据不爬拿来的数据？但是对于爬虫这个东西，我觉得搞搞就可以了，不用更深入研究，毕竟成熟的框架和语言在那里，直接改为自己的参数，然后调用，花点时间学习使用就能学会的，所以我就一直没花时间学习……
之前看过很多网上的文章介绍爬虫以及实战项目，但是觉得爬的内容不喜欢，不喜欢爬漂亮妹子的图，不喜欢爬淘宝图片，也不喜欢爬今日头条，所以就一直搁着没管。前些天看到有爬微博及其对应评论的介绍，这个还要点兴趣，毕竟微博也是我比较多接触的APP，而且有想看的人和内容。所以就留意了下，并且集合百家之言，并且自己加了点东西，当然还是有不完美的地方，比如说不能爬图片，表情等。(但是这个可以通过访问wap格式的网站爬取到，我闲费事，不想弄了）
　=========================================
　　前面是废话，下面是正经的
　　这个脚本的功能主要有两个，
　　1. 爬取某个特定用户的微博信息，包括粉丝数，关注数，发微博的渠道，以及所发过的微博历史及其每一条微博下的评论用户，评论内容，评论渠道等等；这个功能是免登陆实现的，但是需要提供要爬取对象的 uid号。
　　2. 自动对某个用户的Ｎ条微博发表Ｍ条评论，Ｎ，Ｍ都自定义，类似于水军刷评论的感觉………对，没错，就是那个。但是这个是要用自己的account账户登录的，而且小心一点，评论太多，微博会检测出你异常的，然后会封账号或者ip之类的。第一点爬内容的时候也是，爬取的次数太多，间隔太少，也会被封，貌似微博的反爬虫还是很不错的。所以，要想不被发现，相邻两次评论和爬取都要间隔一些时间，sleep一会。
下面放个图：

看圈圈里面的

原谅自己太懒了，真的，今天真的没有做好写总结的状态～～

这是程序里的设置

设置的是每个评论之间间隔60s，可以看到评论时间大概就是一分钟左右的间隔。
啊，好累啊。我发现要从头开始结束爬取的流程和方法要好多啊，突然就不想写了，……想弃坑了～～
想起来再更吧，我要会宿舍了。应该会传到github上吧。
路上爪机码字感悟，

从自己的这幅懒得多写的德行突然感觉，网上细心分享自己心得和经验的人真的都好不容易啊，没他们的分享怎么有我们这些人的学习借鉴和少踩雷区呢！我果然还是差太远了，

图片发自App

我肯定没有成为知名博主的天分，！
不要脸的是不是可以求打赏，

无聊时候的产物2--Weibo爬虫…

你可能感兴趣的:(无聊时候的产物2--Weibo爬虫…)