微信指数批量采集、导出

 

【内容摘要】

 

备注:本文只做采集思路的笔记,不做具体技术文档。微信在2017年上旬推出了微信指数这个小程序,可以根据用户输入的关键词查询该关键词7天、30天、90天的搜索热度。本文旨在记录批量采集微信指数的思路。

 

 

【正文】

 

由于老婆大人工作需要,不得已研究了一下如何批量导出“微信指数”小程序中的关键词指数。

一、手动+代理

    由于时间紧任务重T.T,起先采用了一个比较笨的方法,利用anyproxy抓包手机流量,找到关键词指数信息对应的json文件。思路是没输入一个关键词,就将对应的json文件保存下来,手动替换所有不要的信息,保存到txt文件中。

    此方法优点是简单!任何抓包工具或软件如anyproxy、fiddler或Apache proxy都能找到对应的json文件,缺点也是很明显的,就是要手动输入!效率低!还要手动替换不要的json中的符号,存为excel更是麻烦!

二、手动+代理+脚本

    吸取上一个版本的经验,为了加快采集效率,仍然采用anyproxy抓包关键词对应的json文件,然后通过anyproxy提供的接口,编写自动化保存的脚本,由于各个工具采用的语言不太一样,anyproxy采用nodejs语言编写对应的接口,因此,此处就省略脚本代码。思路很简单,就是当代理服务器侦测到json文件后,就将相应的关键词信息:微信指数存到txt文本或者数据库中,这样,就节省了手动保存的过程。

    此方法的优点是相比方法一节省了手动保存指数的过程,而且可以通过脚本定制存储的方式和格式,缺点仍然是需要手动输入关键词,不够自动化。

三、手机自动模拟按键输入关键词+代理+脚本

    老婆采集的关键词需求增加到了上百个,仍要手动输入是不现实的,此时就需要手机能够自动在微信指数小程序的搜索框输入关键词。只要能够自动输入关键词,其余方法就和二差别不大了。对于如何实现手机的按键精灵以及相应的代码(本人采用的是android系统的模拟器),百度是个好东西哈哈哈。

    此方法优点是采集的自动化程度相对比较高了!只需要有一个关键词列表文件存在手机中,就可进行自动化采集!缺点也是有的,写按键精灵蛮费事的,我也没做过Android,点击过程偶尔会出现bug,需要人工盯着。

 

四、python+url分析

    分析抓包得到的json文件的url,可以发现他们是有规律的,相应的参数是由小程序生成的,因此,用python写了一个小爬虫对分析得到的url进行采集!居然成功了!思路就是利用app小程序生成参数!传值到python中,然后拼接url并进行采集即可!此方法十分高效!我定了每秒3个json数据仍然可以采集(如果想效率更高可以减少采集间隔,至于会不会被封我还没试)。此方法美中不足的是url参数并不是固定的,需要app定期生成。

 

五、待大神完善

    能力有限,肯定还有更方便高效的采集方式,等待网络上各路大神各显神通^ ^。

 

以下是我导出的指数的一些格式,留待参考。

(1)txt格式的

微信指数批量采集、导出_第1张图片

(2)Excel横版格式的

微信指数批量采集、导出_第2张图片

(3)Excel竖版格式的

微信指数批量采集、导出_第3张图片

 

如有需要批量导出微信指数的,或者微博指数、百度指数的,也可以联系qq 569572698 或加微信 fzuir001,非诚勿扰。

 

你可能感兴趣的:(java)