网络爬虫记录《企业工商注册信息》第一篇目标抓取平台

为什么80%的码农都做不了架构师?>>>   hot3.png

网络爬虫记录《企业工商注册信息》

国家企业信用信息公示系统(http://www.gsxt.gov.cn)是企业信息公示系统,里面有全国的企业信息,年报等;是了解一家企业最为权威的网站。由于通过大数据算批量企业信息,可以得到很多业务上的线索;比如找目标客户,区域企业注册情况,周边行业企业注册情况……这也让很多创业公司选择企业工商注册信息成为大数据的基础;当然我这里不用多说企业数据拿来做什么?这里的重点是要说怎么来通过网络爬虫爬取数据。

  在设计爬虫前我们的分析说要抓取的平台的难易程度:

1、国家企业信用信息公示系统(http://www.gsxt.gov.cn)

    这个是最权威的企业信用信息公示平台,可以通过名称爬取企业信息;但是有复杂的验证码;而且还不只是一种验证码,同时一个IP也有一定的访问限制;
验证码方式:

网络爬虫记录《企业工商注册信息》第一篇目标抓取平台_第1张图片           网络爬虫记录《企业工商注册信息》第一篇目标抓取平台_第2张图片

当然不排除解决着两种验证码的技术图片识别+模拟操作;但问题来了,,我们怎么去得到需要的企业名称呢;发现他们也有搜索热词的地方http://www.gsxt.gov.cn/corp-query-entprise-info-hot-search-list.html?province=100000  (province=100000这里指的是北京)但是能提供的企业名称很少;而且每天的变不大;所以对于上亿的企业工商注册,意义不大;

总结:数据准确性及时性高;爬虫技术要求太高;爬取速度慢;只能爬取少许的企业信息可以选择;

2、天眼查(https://www.tianyancha.com)

    作为一个非官方的企业信用信息公示平台,天眼查也加入了一些自己的特色数据;分析过后的企业数据;天眼查主要有用户登录;IP限制;和数据加密(现在已经关闭);

    企业详情连接:https://www.tianyancha.com/company/23289175  (23289175就是企业id)可以通过循环企业ID来查找企业(1684115751、1398726953……)担任他们中间有一些空缺的ID;

企查查也可以通过区域地质来找企业:https://www.tianyancha.com/map/1398726953 这种可以提高找企业的速度;

网络爬虫记录《企业工商注册信息》第一篇目标抓取平台_第3张图片

总结:有数据扩展性(如社保人数);爬取速度快;平台稳定;主要解决IP现在就可以快速抓取;

3、企查查(https://www.qichacha.com/)

    企查查和天眼查两个平台差不多;主要也是用户登录(可以记录一周);IP限制;

企业详情https://www.qichacha.com/firm_edef59f5f70f8981ab8e9c9244a86774.html(edef59f5f70f8981ab8e9c9244a86774是企业ID)这里的ID和天眼查的就不一样是一个32位的随机ID,就不能作为规律;

登录过后也可以查找周边企业

总结:有数据扩展性(如社保人数);爬取速度快;;平台稳定;主要解决IP现在就可以快速抓取;

4、其他平台

    出来大一点的平台还有地方上的,比如:

     成都信用(https://www.cdcredit.gov.cn);地方上的企业信用平台;对爬虫的限制比较小;
     百度企业信用(https://xin.baidu.com/)

    http://www.99114.com/  、http://company.makepolo.com/、http://qiye.youboy.com/……

 

选择一个自己能力解决范围的平台,做一个整体抓取,然后在通过其他平台进行抓取补充,还有需要考虑到后期的企业更新;
总注册企业信息:2亿;工商注册企业:8000万;按照抓取进度差不多100天时间能进行完全抓取;

如果对爬虫技术有探讨,可以加我QQ:397713572 微信:yi18_net 专注于企业爬虫技术;

 

 

 

转载于:https://my.oschina.net/mynote/blog/3014948

你可能感兴趣的:(网络爬虫记录《企业工商注册信息》第一篇目标抓取平台)