如何爬取企信通数据_给定公司名称excel列表在天眼查搜索爬取企业工商信息

给定公司名称

excel

列表,在天眼查搜索爬取企业工商信息

上一篇写了天眼查公司详情页单页面爬取公司基本信

息(简单爬取天眼查数据)

,这里改进一步。需求提供公司

名称,需要获取公司工商注册信息,欲查找的公司名称存储

excel

里。步骤分解

1.

读取

excel

数据(

1

)打开工作簿

import xlrddef open_excel(file):try: book =

xlrd.open_workbook(file)return bookexcept Exception as

e:print ('

打开工作簿

'+file+'

出错:

'+str(e))

(

2

)

读取工作簿中

所有工作表

def read_sheets(file):try: book =

open_excel(file) sheets = book.sheets()return

sheetsexcept Exception as e:print ('

读取工作表出错:

'+str(e))

(

3

)读取某一工作表中数据某一列的数据

def

read_data(sheet, n=0): dataset = []for r in

range(sheet.nrows): col = sheet.cell(r, n).value

dataset.append(col)return dataset2.

打开浏览器因为是采用

selenium+

浏览器,首先先打开浏览器(可用火狐、谷歌等

浏览器,只要配置好环境)

,这里采用了

phantomjs

这个无

头浏览器,并使用了

useragent

代理。此外,

service_args

参数可调用

ip

代理。

from selenium import webdriverfrom

selenium.webdriver.common.desired_capabilities import

DesiredCapabilitiesdef driver_open(): dcap =

你可能感兴趣的:(如何爬取企信通数据)