小小白爬虫入门——selenium模拟登录qq空间

第一次写爬虫是因为想要爬小伙伴空间的说说和留言,结果卡在了验证码。目前还没有解决自动输入验证码的问题。遇到了一下一些问题:
1.火狐浏览器需要下载geckodriver
2.登录表单在frame中,需要切换
3.切换后,要返回默认的主文档(是为了进行下一步操作,比如爬取当前页面的说说内容或定位当前页面的一些元素)

#coding=utf-8

import time
from selenium import webdriver
import sys
# 使用的火狐浏览器
driver = webdriver.Firefox()
# 要进入的空间url
driver.get("https://user.qzone.qq.com/1597872870")
# 登录表单在一个新的frame下,要先切换到这个frame,不然找不到账号密码的输入控件
driver.switch_to_frame('login_frame')
driver.find_element_by_id('switcher_plogin').click()
driver.find_element_by_id('u').clear()
driver.find_element_by_id('u').send_keys('qq账号')
driver.find_element_by_id('p').clear()
driver.find_element_by_id('p').send_keys('qq密码')
time.sleep(3)
driver.find_element_by_id('login_button').click()
# 好像有时候需要输入验证码,暂停20秒手动输入验证码
time.sleep(20)
driver.switch_to.default_content()

算是挖了一个坑,慢慢开始填坑吧。写这个爬虫已经好久了,一直想着写博客记录,但是毁于拖延症。第一次写,中间遇到的问题其实还挺多,但是,时间长…就忘了。下篇就写,如何爬取空间留言板的内容吧。先立个flag。

你可能感兴趣的:(python爬虫)