简单爬爬企查查

本来准备爬取天眼查的,但发现天眼查在不付费的情况下,只能看到前10页的内容,后面的在网页源代码中也无法看到,所以选择了抓取企查查(后来发现利用robot.txt也可以爬取天眼查),代码见下:

from selenium import webdriver
import time
import pymongo
import random
client = pymongo.MongoClient(host = 'localhost', port = 27017)
db = client.qichacha
collection = db.intelnational_organization
driver = webdriver.Chrome() 
for i in range(1  , 501):
    url = 'https://www.qichacha.com/gongsi_industry.shtml?industryCode=T&p=%d'%i
    driver.get(url)  
    time.sleep(2 +  random.random())
    tb = driver.find_element_by_xpath("./html/body/div[2]/div/div[2]").text 
    time.sleep(5 + 15 * random.random())
    if tb:
        col = {str(i): tb}
        collection.insert(col)
        print(i) 
    else: 
        print("fail %d")%i
        break   

这段代码自身没有多少技术含量,关键点在于如何使自身的ip不会被封掉,于是运用了time库中的sleep函数以及random随机时间。如果根据行业更换url, 则可以抓取所有的企业,本人已亲测可行。事实上也可以对其进行封装!

特别声明:
本博客所有内容及其附加产品仅用于学术研究,如有人对此商用造成的法律后果,本博客概不负责!! !

你可能感兴趣的:(python,python)