最全微信公众号爬取(采集微信官方服务器所有公众号)

微信公众号爬虫说明
该程序可以通过递归爬取所有微信服务器上的公众号信息公众号官方平台(公众号ID,公众号名称,logo等,数据格式通过mysql存储)
DevideGroup.py:
此python文件主要工作是将各行业公众号关键字分键值对存在redis,这样后面公众号采集程序就可以分布式从redis不同键值对获取关键字进行公众号搜索从而进行抓取
每个键值对存一定量关键字key01,key02…
WeChatGzhSpider.py:此文件主要用于抓取公众号信息
思想:第一批关键字搜索抓取完公众号后然后对抓取到的公众号名称进行分词然后分词结果作为第二次关键字进行轮询递归采集这样反复则可以将微信服务器所有公众号结果采集下来

启动方式:先启动DevideGroup.py将kw.txt关键字导入到redis数据库然后启动WeChatGzhSpider运行,程序已经有示例
下载爬虫源码
提取码:3tig

你可能感兴趣的:(网络爬虫,python,数据采集,python,redis,mysql)