python selenium BeautifulSoup实现手动登录网站后持续爬取网站内不同页面内容

#此程序实现了手动登录网站后可持续爬取网站内不同页面的效果
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import re
import json

browser=webdriver.Chrome("e:/chromedriver.exe")

browser.get("https://www.tianyancha.com/search?key=%E6%B7%B1%E5%9C%B3%E5%B8%82%E5%A4%A9%E5%81%A5%EF%BC%88%E9%9B%86%E5%9B%A2%EF%BC%89%E8%82%A1%E4%BB%BD%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8")

print("请在30秒之内登录网站")

time.sleep(30)
#★★★★★此时手动登录网站后 便可以连续get网页的内容★★★★★

#获取网页源码
html=browser.page_source
#print(html)

#用靓汤解析网页
bs=BeautifulSoup(html,"html.parser")
#查找到第一个div
div=bs.find('div',attrs={'class':'header'})

print(div.a.get("href"))
print(div.a.get_text())
    


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

#★★★★★连续获取网站内的其它网页源码★★★★★
browser.get("https://www.tianyancha.com/company/603109979")

print("稍等5秒")
time.sleep(5)

html=browser.page_source

bs = BeautifulSoup(html,"html.parser")
h1=bs.find('h1',attrs={'class':'name'})
print(h1.get_text())


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

table=bs.find('table',attrs={'class':'table -striped-col -border-top-none -breakall'})
print(table)

#print(html)

print("ok")

 

你可能感兴趣的:(python)