天眼查数据采集、分析、深度挖掘

天眼查数据采集与分析
1、天眼查是什么
天眼查是由商业查询平台,在基于独有核心技术图数据库的基础上, 构建了完备的集数据采集、数据清洗、数据聚合、数据建模、数据产品化为一体的大数据解决方案。 秉持“让每个人公平地看清这个世界”的使命,坚持采用公开等数据,天眼查系列产品不仅可以可视化呈现复杂的商业关系, 还可以深度挖掘和分析相关数据,预警风险等。 作为“商业安全工具”,天眼查收录了2.8亿家社会实体信息(含企业、事业单位、基金会、学校、律所等), 300多种维度信息批量实时更新,实现了从洞察风险到预警风险的全方位把控,针对个人、企业、政府都有相应的解决方案。
2、天眼查数据如何采集
方法一: 用python的request方法

   用python的request方法,直接原生态代码,python感觉是为了爬虫和大数据而生的,我平时做的网络分布式爬虫、图像识别、AI模型都是用python,因为python有很多现存的库直接可以调用,比如您需要做个简单爬虫,比如我想采集天眼查 几行代码就可以搞定了,核心代码如下:

import requests #引用reques库

response=request.get(‘https://www.tianyancha.com’)#用get模拟请求

print(response.text) #已经采集出来了,也许您会觉好神奇!

方法二、用selenium模拟浏览器

selenium是一个专门采集反爬很厉害的网站经常使用的工具,它主要是可以模拟浏览器去打开访问您需要采集的目标网站了,比如您需要采集天眼查或者企查查或者是淘宝、58、京东等各种商业的网站,那么这种网站服务端做了反爬技术了,如果您还是用python的request.get方法就容易被识别,被封IP。这个时候如果您对数据采集速度要求不太高,比如您一天只是采集几万条数据而已,那么这个工具是非常适合的。我当时在处理商标网时候也是用selenum,后面改用JS逆向了,如果您需要采集几百万几千万怎么办呢?下面的方法就可以用上了。

方法三、用scrapy进行分布式高速采集

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy 特点是异步高效分布式爬虫架构,可以开多进程 多线程池进行批量分布式采集。 比如您想采集1000万的数据,您就可以多设置几个结点和线程。Scrapy也有缺点的,它基于 twisted 框架,运行中的 exception 是不会干掉 reactor(反应器),并且异步框架出错后 是不会停掉其他任务的,数据出错后难以察觉。

方法四:用Crawley

Crawley也是python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。它是基于Eventlet构建的高速网络爬虫框架、可以将爬取的数据导入为Json、XML格式。支持非关系数据跨、支持使用Cookie登录或访问那些只有登录才可以访问的网页。

方法五:用PySpider

相对于Scrapy框架而言,PySpider框架是一支新秀。它采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。 PPySpider的特点是ython脚本控制,可以用任何你喜欢的html解析包,Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。用它做个两个外贸网站采集的项目,感觉还不错。
3、天眼查数据统计分析
截止2021-10月
数据表 备注 条数
td_gov_company 统一社会信用代码 162606702
td_gov_company_abnormal 经营异常 21886417
td_gov_company_announcementcourt 开庭公告 3241318
td_gov_company_basic 工商注册 150653722
td_gov_company_branch 分支机构 2336817
td_gov_company_certificate 资质证书 4291055
td_gov_company_changerecord 变更记录 130089393
td_gov_company_clients 客户 1246123
td_gov_company_commontaxpayer 一般纳税人 2367969
td_gov_company_copyright 软件著作权 5244735
td_gov_company_directors 主要人员 150279522
td_gov_company_discredit 失信被执行人 884913
td_gov_company_email 邮箱 24083161
td_gov_company_extend 扩展信息 4371708
td_gov_company_firmproduct 企业业务 203395
td_gov_company_icpinfo 网站备案 842407
td_gov_company_importandexport 进出口信用 598564
td_gov_company_invest 对外投资 3423743
td_gov_company_jingpin 竞品信息 1508922
td_gov_company_license 行政许可 26809405
td_gov_company_mark 商标信息 35525766
td_gov_company_microblog 微博 379236
td_gov_company_mobilephone 手机号 52698050
td_gov_company_nianbao 年报 15005094
td_gov_company_patent 专利信息 3584832
td_gov_company_punishment 行政处罚 2093647
td_gov_company_rongzi 融资历程 52027
td_gov_company_shares 股东信息 86800164
td_gov_company_stockfreeze 股权冻结 655378
td_gov_company_supplies 供应商 626045
td_gov_company_taxcredit 税务评级 2593554
td_gov_company_telephone 固定电话 13179293
td_gov_company_wechatoa 公众号 271767
td_gov_company_workright 作品著作权 6152970
样图:
链接:https://pan.baidu.com/s/1fluTfgFlNZZatXXMpIRu5Q
提取码:7777
4、用途
 a、天眼查是一款 “都能用的商业调查工具”,实现了企业信息、企业发展、司法风险、经营风险、经营状况、知识产权等40种数据维度查询(企业工商信息、法律诉讼、法院公告、商标专利、向外投资、分支机构、变更信息、债券、网站备案、著作权、招投标、失信、经营异常、企业年报、招聘及新闻动态等),深度商业"关系梳理",专业信用报告呈现等功能。适合金融、投资、律师、咨询、记者、商务等人士。
  b、应用简介
  天眼查是一款手机应用软件。天眼查是以公开数据为切入点、以关系为核心的产品,在帮助传统企业或个人降低成本、防范化解金融风险方面提供了产品化的解决方案。例如,金融担保机构可通过天眼查所提供的信息查询及关系挖掘服务,高效率获取更多更全面可靠的借贷企业的经营状况信息,以确保借贷资金的安全性,同时也为媒体在新闻报道中提供高效、可靠的线索查询渠道,优化信息求证方式。
  c、主要功能
  主要提供专业的企业信息查询、企业关系挖掘服务。天眼查为用户提供搜索查询功能,主要信息包括:工商信息、涉诉信息、商标专利、失信信息、企业变更与企业年报、以及企业关联关系查询等。天眼查实现了全量工商数据、商标数据、公开诉讼数据的融合,以及对企业关系的深度挖掘。

你可能感兴趣的:(POI,高德POI,python,爬虫,开发语言)