前叙
系列文章:
爬虫实战(一):爬取微博用户信息
爬虫实战(二):Selenium 模拟登录并爬取信息
爬虫实战(三):微博用户信息分析
该系列文章介绍了什么?
1.爬虫分析和处理方法
2.Python中的数据库操作方法
3.Selenium浏览器自动化以及无头浏览器使用方法
4.对数据进行词云分析的方法
5.对数据进行可视化的方法
6.LDA隐含狄利克雷分布模型的建模和使用方法
前言
前一篇文章 爬虫实战(一):爬取微博用户信息 中爬取的是 weibo.cn 这个网页,但是由于该网页缺少维护,微博官方可能加了一些限制,导致稍微频繁一点的访问都会报 403 错误,加上每次手动获取 cookies 也比较麻烦,不友好,所以针对这些情况,我使用了一种新的抓取方式,也是一种更为高级的爬虫手段。
我之前在文章里面提到“ 爬取微博主页 weibo.com/ 或者 m.weibo.cn/ 较为困难 ”,为什么会这么说呢?因为这两种页面较新,所以采用的技术比较新颖,反爬措施做得要好一些。特别是它们采用了滚动式页面,每次向下滚动到底后会加载出新的内容,这种动态加载模式使得传统的改变网页地址中的页码获得相应内容的方法失效了,含有用户信息内容的源码需要抓包获取,或者直接操作浏览器获取。后者一般都是Selenium+PhantomJS来实现。
由于 Phantom.js 的维护者 Slobodin 在Google论坛上发帖表示,鉴于Chrome 59推出了无头浏览特性,他认为“Chrome比PhantomJS更快,更稳定”,没有理由再继续维护Phantom.js(开发者很有自知之明:P,不过 Phantom.js 确实是一个很好用的东西),所以本文采用 Selenium+Chrome/Firefox 无头浏览器的方式进行模拟登录和抓取用户动态信息的操作。
Selenium
Selenium 是一个浏览器自动化测试框架,起初是为了自动化测试开发的,在爬虫流行起来以后,也成为了一种爬虫的工具。它的功能简单来说就是可以控制浏览器,用代码模拟人对浏览器的操作,实现自动化。
安装
和大多数 python 包一样,selenium 可以使用 pip 进行安装:
# python 2
pip install selenium
# python 3
pip3 install selenium
复制代码
因为 selenium 是对浏览器进行控制,所以首先要装对应的驱动(driver),Selenium 针对几个主流的浏览器都有相应的官方 driver。读者可以根据自己的情况下载并安装。比如笔者是使用的 Linux 系统上的 Chrome 浏览器最新版本,那么便下载相应版本的 driver ,下载完成以后,执行命令:
#/usr/bin 或者 /usr/local/bin
sudo cp 下载的driver位置 /usr/bin
sudo chmod +x /usr/bin/chromedriver
复制代码
安装完成以后测试一下是否成功。
测试
首先来测试一下是否安装成功:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
复制代码
运行这段代码,会自动打开浏览器访问百度。
如果程序执行错误,浏览器没有打开,那么可能是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里或者驱动和浏览器版本不匹配。
模拟登录
登录微博需要使用验证码,自动识别验证码这一块我研究了一下,使用图像识别,也不难,但是因为我们可以将cookies 持久化保存下来,使用手动输入验证码并不麻烦,所以自动识别验证码可以暂时先放一放,后面慢慢来研究。
使用 selenium 控制浏览器,通过对页面的元素进行定位来模拟人的操作,API 详细介绍请见 参考文档 。模拟登录代码如下:
def get():
conf, engine = Connect('conf.yaml') # 获取配置文件的内容
loginname = conf.get('loginname')
password = conf.get('password')
loginname = list(loginname.values())
password = list(password.values())
with open('cookies.pkl', 'wb') as f:
for i in range(len(password)): # 将每个账号的cookies保存下来.
try:
driver = webdriver.Chrome()
driver.set_window_size(1124, 850) # 防止得到的WebElement的状态is_displayed为False,即不可见
driver.get("http://www.weibo.com/login.php")
time.sleep(5)
#自动点击并输入用户名
driver.find_element_by_xpath('//*[@id="loginname"]').clear()
driver.find_element_by_xpath('//*[@id="loginname"]').send_keys(loginname[i])
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()
time.sleep(2)
#自动点击并输入登录的密码
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys(
password[i])
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
#输入验证码
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
input("输入验证码: "))
time.sleep(1)
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
except Exception as e:
print("验证码输入错误,请重新输入!")
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
input("输入验证码: "))
time.sleep(1)
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
cookies = driver.get_cookies()
pickle.dump(cookies, f)#序列化cookies对象
复制代码
代码注释应该写得比较清楚,其中有一个细节就是我们需要将获取的 cookies 序列化。什么是序列化?
我们把变量从内存中变成可存储或传输的过程称之为序列化,即把数据写入临时或持久性存储区,而把变量内容从序列化的对象重新读到内存里称之为反序列化。
意思是在这里将 cookies 以二进制形式保存下来,这样可以方便后续爬虫使用。
使用 selenium 爬取用户信息
爬取用户信息的大致思路和上一篇文章 爬虫实战(一):爬取微博用户信息 差不多 ,但仍然有以下区别:
- 爬取 https://m.weibo.cn/ 而不是 https://weibo.cn/
- 使用 seenium 代替 requests 获取源码
- 使用 selenium 加载滚动页面直到所有动态信息加载完成
- 先使用正常的Chrome调试,调试完成以后再改成无头浏览器
首先我们来看微博 html5 移动端的页面长什么样:
为什么选这个网址而不是PC端的页面呢?因为PC端的页面每向下滑动三次需要跳页,操作要繁琐一些,而且 selenium 容易因为失去焦点导致跳转失败,我也没找到很好的解决方法,而 html5 移动端的页面多次滑动到底便可以获得所有动态信息,不需要跳页,所以要简单很多。
再来看看使用 selenium 如何操作浏览器滑动到底,下面是相关的处理函数,这个函数将 web 页面滑动多次直到无法再滑动(即滑动到底了)并使用正则表达式提取出动态和动态发布时间:
#获取用户所有动态信息和动态发布时间并返回
def execute_times(driver):
dynamic = []
T = []
d = re.compile(r'og">(.*?)<', re.S) # 匹配动态
t = re.compile(r'(.*?)<', re.S) # 匹配动态发布时间
#返回滚动高度
last_height = driver.execute_script("return document.body.scrollHeight")
while True:
# 滑动一次
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 等待加载
time.sleep(random.random())
# 计算新的滚动高度并与上一个滚动高度进行比较
new_height = driver.execute_script("return document.body.scrollHeight")
if new_height == last_height:
break
last_height = new_height
html = driver.page_source
dynamic += re.findall(d, html)
T += re.findall(t, html)
return dynamic, T #返回用户所有动态信息和动态发布时间列表
复制代码
得到用户所有动态信息和动态发布时间列表以后,其他处理和前一篇文章类似,在此不再累述,详情请见源码 weibo_spider.py。
因为每次运行程序都需要弹出浏览器窗口,而且速度较慢,所以可以将浏览器设置成无头模式:
#Chrome
opt = webdriver.ChromeOptions() # 创建chrome参数对象
opt.set_headless() # 把chrome设置成无头模式,不论windows还是linux都可以,自动适配对应参数
driver = webdriver.Chrome(options=opt)#不制定options选项则是普通有头浏览器
#Firefox
opt = webdriver.FirefoxOptions()
opt.set_headless()
driver = webdriver.Firefox(options=opt)
复制代码
至此模拟登录并爬取信息方法介绍完毕。
源码地址:https://github.com/starFalll/Spider