python 爬虫

最近爬取天眼查的企业数据,天眼查的页面用的js技术,所以用requests已经不能爬了,所以想了两种办法

  • 1.用selenium+Phantomjs模拟浏览器
    用这种方法,成功的爬到了想要的数据,缺陷就是爬取速度慢,平均爬一条数据几十秒,下边是代码
dcap = dict(DesiredCapabilities.PHANTOMJS)
    dcap["phantomjs.page.settings.userAgent"] = (
        "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36"
    )

    driver = webdriver.PhantomJS(desired_capabilities=dcap)
    driver.get(url)
    #print (driver.page_source)
    soup = BeautifulSoup(driver.page_source, 'lxml')
    driver.quit()
一开始爬取页面不全,后边添加UA后,可以了。
  • 2.直接请求json来爬取
    完全模拟headers,还是502,后经查询,是cookies里边的token和_utm动态生成,现在还在研究怎么破解。

你可能感兴趣的:(python 爬虫)