selenium模拟登陆百度贴吧和新浪微博

selenium和phantomjs是爬取动态获取数据和AJAX的良配。上一篇已经说了phantomjs的安装方法与常见用法。接下来就是安装Selenium和phantomjs实现模拟登陆百度贴吧,并实现签到。
selenium的安装过程对于作者本人有点坎坷,真心感觉纸上得来终觉浅,要得出真知还是实践来撸一遍。

selenium模拟登陆百度贴吧和新浪微博_第1张图片
撸一遍
  • 1.安装selenium
    • 安装虐我千百遍,结果发现自己傻了眼。假设已经安装好了python解释器(新版本默认安装了pip)运行下面命令:
pip install selenium
  • 2.查看selenium安装成功与否,如果运行下面的命令,出现下图的selenium,则说明安装成功:
pip list
selenium模拟登陆百度贴吧和新浪微博_第2张图片
安装的模块
  • 3.新创建一个python文件,代码如下所示,但是运行的时候出现can not find the module selenium:
from selenium import webdriver
driver=webdriver.PhantomJS()
print(driver.page_source)
driver.quit()

selenium模拟登陆百度贴吧和新浪微博_第3张图片
吓屎了
  • 4.明明安装了selenium,怎么就是找不到呢?不要慌,沉着冷静,没关系,百度上大多的办法都解决不了问题,不过总是有大神的办法能解决的。运行下面的命令。
C:\Users\userName>python
Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v
900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import selenium
>>> print( selenium.__file__)
D:\anaconda\lib\site-packages\selenium\__init__.py
>>>
  • 5.从上面可以看出自己造了个坑,之前因为要安装Anaconda使用scrapy,所以默认安装selenium的时候会安装在D:\anaconda\lib\site-packages\;所以在python的IDLE引用selenium模块时会引用不到,因为python默认安装的模块路径是D:\pyfiles(这是python安装的目录)\Lib\site-packages\。所以最好的解决方法是直接copy一份到python解释器目录下。


    selenium模拟登陆百度贴吧和新浪微博_第4张图片
    解决问题
  • 6.解决了slenium引用模块问题,接下来要解决的问题是Phantomjs的安装路径必须加入系统的环境变量,才能调用。右键点击我的电脑,然后选择属性,然后如下图所示,找到path变量值,最后把安装路径添加到path。
selenium模拟登陆百度贴吧和新浪微博_第5张图片
添加到path
  • 7.观察百度贴吧的登录过程,百度贴吧登录先要点击登录然后弹出模态窗,最后输入账号与密码才可以登录。由于百度贴吧是通过js进行数据的加载,所以我们必须延迟几秒,等待百度贴吧完全把数据加载进来。


    selenium模拟登陆百度贴吧和新浪微博_第6张图片
    登录过程
  • 8.登录模态框的账号id是TANGRAM__PSP_10__userName;密码id是TANGRAM__PSP_10__password;登录按钮id是TANGRAM__PSP_10__submit。

 
 
  

  • 9.登录百度贴吧,和实行签到代码,中间使用太多的sleep进行间歇,主要是等待页面的加载,下次会用selenium的隐式等待与显式等待重构:


    selenium模拟登陆百度贴吧和新浪微博_第7张图片
    明明偷懒
from selenium import webdriver
from time import sleep
driver=webdriver.PhantomJS()
driver.get("https://tieba.baidu.com/index.html#")
sleep(3)
#模拟点击登录按钮,并且弹出模态窗
driver.find_element_by_xpath("//li[@class='u_login']/div/a").click()
sleep(2)
#清除账号输入框的历史账号
driver.find_element_by_id("TANGRAM__PSP_10__userName").clear()
#填写账号
driver.find_element_by_id("TANGRAM__PSP_10__userName").send_keys("账号")
driver.find_element_by_id("TANGRAM__PSP_10__password").clear()
#填写密码
driver.find_element_by_id("TANGRAM__PSP_10__password").send_keys("密码")
#模拟点击登录按钮
driver.find_element_by_id("TANGRAM__PSP_10__submit").click()
sleep(5)
# div#onekey_sign>a是一键签到的css选择器,其中j_sign_btn是点击一键签到后踏出来的模态窗的按钮css选择器
driver.find_element_by_css_selector("div#onekey_sign>a").click()
driver.find_element_by_css_selector(".j_sign_btn ").click()
sleep(2)
driver.get_screenshot_as_file("C:\\Users\\username\\Desktop\\1.png")
driver.quit()

  • 10.有图有真相。


    selenium模拟登陆百度贴吧和新浪微博_第8张图片
    辣么长的图是用来凑字数的吧
  • 11.文末有彩蛋,只要模拟登录过中国最大中文社区,哪能忽略了我们的新浪微博呢。都跟上述百度贴吧的逻辑是一样的,不过因为新浪微博网页是响应性。用phantomjs没有最大化窗口的时候,登陆框等都是不可见的即display:none,只有最大化窗口,然后显式等待,最后发现可以模拟登录成功,直接上一遍。
selenium模拟登陆百度贴吧和新浪微博_第9张图片
其实是别的博主给的建议
from selenium import webdriver
from time import sleep
driver=webdriver.PhantomJS()
driver.maximize_window()
driver.get("https://www.weibo.com/login.php")
sleep(3)
driver.find_element_by_id("loginname").clear()
driver.find_element_by_id("loginname").send_keys("xxxx")
driver.find_element_by_xpath("//*[@id='pl_login_form']/div/div[3]/div[2]/div/input").clear()
driver.find_element_by_xpath("//*[@id='pl_login_form']/div/div[3]/div[2]/div/input").send_keys("xxxx")
driver.find_element_by_xpath("//*[@id='pl_login_form']/div/div[3]/div[6]/a").click()
sleep(10)
driver.get_screenshot_as_file("C:\\Users\\Username\\Desktop\\1.png")
driver.quit()
selenium模拟登陆百度贴吧和新浪微博_第10张图片
登录后的场景

关于Selenium的相关介绍,下一篇介绍。感觉又挖了一波坑。改进的版本要早做准备了。

selenium模拟登陆百度贴吧和新浪微博_第11张图片
正常表情

你可能感兴趣的:(selenium模拟登陆百度贴吧和新浪微博)