无聊时候的产物2--Weibo爬虫…

前两周闲来无事,哦……也不是闲来无事,有事做的。有论文要读的,但是精神已经处于除了科研其他都想搞的状态,就把老早之前想练练手的爬虫项目拿出来琢磨琢磨。你说不误正业么?也不是啊,至少我是在学编程,码代码,大数据不爬拿来的数据?但是对于爬虫这个东西,我觉得搞搞就可以了,不用更深入研究,毕竟成熟的框架和语言在那里,直接改为自己的参数,然后调用,花点时间学习使用 就能学会的,所以我就一直没花时间学习……
 之前看过很多网上的文章介绍爬虫以及实战项目,但是觉得爬的内容不喜欢,不喜欢爬漂亮妹子的图,不喜欢爬淘宝图片,也不喜欢爬今日头条,所以就一直搁着没管。前些天看到有爬微博及其对应评论的介绍,这个还要点兴趣,毕竟微博也是我比较多接触的APP,而且有想看的人和内容。所以就留意了下,并且集合百家之言,并且自己加了点东西,当然还是有不完美的地方,比如说不能爬图片,表情等。(但是这个可以通过访问wap格式 的网站爬取到,我闲费事,不想弄了)
 =========================================
  前面是废话,下面是正经的
  这个脚本的功能主要有两个,
  1. 爬取某个特定用户的微博信息,包括粉丝数,关注数,发微博的渠道,以及所发过的微博历史及其每一条微博下的评论用户,评论内容,评论渠道等等;这个功能是免登陆实现的,但是需要提供要爬取对象的 uid号。
  2. 自动对某个用户的N条微博发表M条评论,N,M 都自定义,类似于水军刷评论的感觉………对,没错,就是那个。但是这个是要用自己的account账户登录的,而且小心一点,评论太多,微博会检测出你异常的,然后会封账号或者ip之类的。第一点爬内容的时候也是,爬取的次数太多,间隔太少,也会被封,貌似微博的反爬虫还是很不错的。所以,要想不被发现,相邻两次评论和爬取都要间隔一些时间,sleep一会。
下面放个图:

看圈圈里面的

原谅自己太懒了,真的,今天真的没有做好写总结的状态~~

这是程序里的设置

设置的是每个评论之间间隔60s,可以看到评论时间大概就是一分钟左右的间隔。
啊,好累啊。我发现要从头开始结束爬取的流程和方法要好多啊,突然就不想写了,……想弃坑了~~
想起来再更吧,我要会宿舍了。应该会传到github上吧。
路上爪机码字感悟,

从自己的这幅懒得多写的德行突然感觉,网上细心分享自己心得和经验的人真的都好不容易啊,没他们的分享怎么有我们这些人的学习借鉴和少踩雷区呢!我果然还是差太远了,
图片发自App

我肯定没有成为知名博主的天分,!
不要脸的是不是可以求打赏,

你可能感兴趣的:(无聊时候的产物2--Weibo爬虫…)