一. 如何绕过页面登录
我们在登录网站的时候,通常需要输入用户名、密码和验证码,那么有没有办法绕过登录环节呢?
有两种方法可以解决这个问题,一种是利用chrome浏览器的用户配置,一种是利用cookie,这篇文章主要总结一下前者
二. 如何实现加载用户配置(以博客园为例)
第一步:如果之前未登录过该网站,在手工登录的时候,要勾选下次自动登录
第二步:利用chrome://version查看User Data的路径
用户的配置信息都放在User Data目录下
第三步:构建python代码
这里值得注意的是:
1. --user-data-dir 要写正确(--user-data-dir或user-data-dir都是可以的),我看很多博文里都写成了–user-data-dir,经过测试,发现后者是无法加载用户配置的
2. get后的url为登陆后页面的url,这也契合我们的目的:即绕过登录页面,直接查看登陆后的页面
from selenium import webdriver import time option = webdriver.ChromeOptions() option.add_argument("--user-data-dir=C:\\Users\\Beck\\AppData\\Local\\Google\\Chrome\\User Data") driver = webdriver.Chrome(options=option) driver.get("https://www.cnblogs.com")
第四步:python代码运行之前,请关闭已打开的chrome浏览器
否则,chromedriver会挂起,后面打开url的操作不会执行,这一点请参考《Selenium chromedriver hangs if I specify user-data-dir in Chrome options》:
"The only one client could be connected to a debugger in one time. So, to fix the issue, when we want to enter to a user profile using a debugger - to avoid chromedriver hangs trying to connect to the debugger, we must close an existing Chrome session"
看来这个和远程调试有关系,如果想用调试器来进入用户配置,为了避免chromedriver尝试连接调试器而导致的挂起,必须关闭已经存在的chrome会话
第五步:运行代码,观察结果
结果是符合预期的,因为看到的用户名,我的博客和退出选项
三. 加载用户配置并不是万能的
利用ChromeOptions()加载用户配置的前提是,我们要访问页面的url在浏览器的每次会话中都是相同的,如果同一页面每次会话的url变化,这意味着可能要改变一下策略了,以QQ邮箱为例,每次浏览器会话中首页的url都是不同的
一次会话:
另一次会话:
从上面两张图中,可以明显发现这个sid是变动的,sid又是什么呢?请参考《详解SID之终结篇》,里面有句话是:
"SID即安全标识符(System IDentifier),它用来标识用户身份的。当系统每次创建用户都会分配一个唯一的SID,每个帐户的SID都是不重复的"
这样即使运行python代码,看到的始终是QQ邮箱的登录页面
参考文章
https://blog.csdn.net/zwq912318834/article/details/78933910
https://www.cnblogs.com/baoyu7yi/p/7058537.html
https://stackoverflow.com/questions/41941573/selenium-chromedriver-hangs-if-i-specify-user-data-dir-in-chrome-options