python 爬虫利用webdriver 跳过登陆 进行小规模抓取信息

 下载webdriver 驱动包 ,(windows 下)我一般用的是谷歌的驱动chromedriver.exe,最好是放在指定的一个路径然后把路径放进 环境变量的path中,当然有很多情况出现BUG不能测试,暴力的办法就是直接放在python3.5的路径下,就OK了,

然后python代码

import time
import requests
from selenium import webdriver
from bs4 import BeautifulSoup 
driver = webdriver.Chrome() #
driver.get('https://passport.ganji.com/login.php?next=/');#进入这个登陆网站
element =  driver.find_element_by_name("login_username")#获取账号栏的标签
element.send_keys("1820918313")#给账号栏里输出账号
element =  driver.find_element_by_name("login_password")
element.send_keys("******")# 输入密码
element = driver.find_element_by_class_name("submit").click() #点击下面的登陆按钮
          
time.sleep(5)
driver.get('http://xa.ganji.com/qzbianjijizhe/')# 进入这个登陆页面之后 就可以向需要登陆的页面重新发送请求  就不需要登陆
r = requests.get('http://xa.ganji.com/qzbianjijizhe/')  # 接下来就可以利用各种 抓取包 进行标签抓取了
content = r.text
print(content)


你可能感兴趣的:(爬虫)