爬虫实战--八爪鱼工具篇

从小时候开始,我就不太喜欢传统节假日,可能和年少时的一些心理阴影有关。而且传统大节因为某些的原因出不了门,眼睁睁的看着时针旋转是很痛苦的,所以更加百无聊赖。

这个十年不遇的八天长假恰逢我的知乎粉丝过万,于是我就付出了一点点成本,和粉丝们搞一个热情的互动。我定制了一个规则,从中选出一百名用户来,给他们寄明信片,这个成本我也可以接受。

虽然号称一万粉丝,但实际上转化率不会很高,我估计也就在1%左右,这样真正互动的,可能也就100名左右,于是我在知乎发了一篇文章,并预留了7天的留言时间。


爬虫实战--八爪鱼工具篇_第1张图片

出乎我意料的是,24小时内100名粉丝的回复就满了。

我打算准备200张明信片和邮票,前100按顺序寄,后100再从后续的回复里抽签寄。但是,如何获取这些回复的用户ID呢?

于是我使用了八爪鱼采集器。这货长这样:


爬虫实战--八爪鱼工具篇_第2张图片

这是一款半免费的工具软件,如果数据量大的话,那就需要支付一点点费用,大概每月几十元。不过,我只抓取100名回复,这么点数据量就不需要付费了。

本来这个工作可以用python写个脚本,但我发现使用工具更简单,就懒得写脚本。


爬虫实战--八爪鱼工具篇_第3张图片

新增任务后,输入准备采集的页面URL,也就是我发在知乎上的文章。


爬虫实战--八爪鱼工具篇_第4张图片

系统自动采集出在这篇文章下面的回复,但只有十条,没关系,点“加载下一页”。会继续采集十条,难道要这么一直按下去?

当然不用,再点一次,系统会弹出提示:


爬虫实战--八爪鱼工具篇_第5张图片

这里的云采集是付费项目,用单机采集是免费的,于是选单机采集。经过简单的设置后,系统开始批量采集:



爬虫实战--八爪鱼工具篇_第6张图片

比如第二个字段是头像,我们不需要采集这个,就删掉该字段。第一个字段是知乎ID,第三个字段是昵称,考虑到昵称可能会重复,就保留着ID作为对照。

爬虫实战--八爪鱼工具篇_第7张图片

设置好自动翻页:


爬虫实战--八爪鱼工具篇_第8张图片

当然,100条回复不是什么大数据量,一分钟就采集完毕。采集后的效果是这样的:


爬虫实战--八爪鱼工具篇_第9张图片

左下角的清单可以导出为Excel,于是,我拿到了100名回复者的清单。


爬虫实战--八爪鱼工具篇_第10张图片

我需要和这些用户一一私信,以获取他们的邮寄地址,手工私信当然很麻烦啦,于是我找了个私信工具:


爬虫实战--八爪鱼工具篇_第11张图片

将用户清单导入该工具,便可自动发送私信。

最终,我完成一份寄明信片的地址清单。

爬虫实战--八爪鱼工具篇_第12张图片

哎~~~我的明信片忘了印了啊。。。。等我去淘宝订上去。。。。


爬虫实战--八爪鱼工具篇_第13张图片

你可能感兴趣的:(爬虫实战--八爪鱼工具篇)