python分支机构_基于Python爬取天眼查网站的企业信息!Python无所不能!

注:这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序,是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 。

python版本:python2.7

编码工具:pycharm

数据存储:mysql

爬虫结构:广度爬虫

爬虫思路如下:

1.先获取需要采集信息的公司

2.从数据库中获取

3.获取字段:etid,etname

4.将获取的数据存储的状态表中

5.从状态表中获取数据,并更新状态表

6.拼接初始URL:

7.将etname和初始url进行拼接,获得初始网址

8.将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

9.请求解析初始一级页面

10.验证查询的公司是否正确

11.获取二级页面url

12.将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

13.请求解析二级页面:

14.获取的信息待定

15.将公司的信息存储到数据库中:

16.建表

17.存储信息

所建的表:

企业主要信息: et_host_info

工商信息: et_busi_info

分支机构信息: et_branch_office

软件著作权信息: et_container_copyright_info

网站备案信息: et_conrainer_icp_info

对外投资信息: et_foreign_investment_info

融资信息: et_rongzi_info

股东信息: et_stareholder_info

商标信息: et_trademark_info

你可能感兴趣的:(python分支机构)