【企查查】高级查询下突破导出5000条/10次限制思路tips,完整全量导出

【企查查、天眼查、企业信息,企业目录】

  • 高级查询界面
  • 限制条件
  • 突破思路
  • 结果展示

高级查询界面

【企查查】高级查询下突破导出5000条/10次限制思路tips,完整全量导出_第1张图片

限制条件

  • 即使VIP,对单个筛选条件下的查询数据也只能有前5000条。并且有导出次数限制
    【企查查】高级查询下突破导出5000条/10次限制思路tips,完整全量导出_第2张图片

突破思路

  • 1、将一个查询条件下的数据进行时间拆分,例如拆分为5天时间段,每次的数据量会下降到5000以内
  • 2、用selenium对查询进行时间拆分点击,写算法对数据量判断自动拆分时间,保证时间段内的数据大于4000小于5000

这样处理以后几十万的数据量会被拆分成每个时间段处理从而达到全量导出的效果,一天数据量超过5千,可以按原理拆分城市、行业
【企查查】高级查询下突破导出5000条/10次限制思路tips,完整全量导出_第3张图片

  • 3、最后实现主要用selenium+requests方法完成,selenium查询点击,requests导出数据

结果展示

导出结果与官方数据一致,仅展示部分字段

你可能感兴趣的:(数据采集,python,爬虫,大数据,数据库,json)