目的:
利用python和selenium实现自动化爬虫
所需工具:
1、python2.7
2、selenium库(pip install selenium或者easy_install selenium进行安装)
3、火狐浏览器
安装好上述工具之后就可以开始微博爬虫啦!
首先,打开你的python编辑器(本人使用的是sublime3),设置一下编码格式如下:
# -*- coding:utf-8 -*-
|
然后导入所需要的库:
from
selenium
import
webdriver
from
selenium.webdriver.common.keys
import
Keys
from
selenium.webdriver.common.action_chains
import
ActionChains
import
time
|
利用如下代码,自动打开你的火狐浏览器并跳转到微博登录首页:
driver
=
webdriver.Firefox()
time.sleep(
3
)
driver.get(
"http://weibo.com"
)
|
其中的time.sleep是让程序等候3秒后再接着运行,为了避免因为网速的影响而导致页面信息抓取错误。运行这段代码之后,就会发现你的浏览器已经跳转到微博登录首页了,这个时候需要让浏览器实现自动点击账号登录并输入账号和密码。代码如下:
left
=
driver.find_element_by_xpath(
".//*[@id='pl_login_form']/div[2]/div[1]/div/a[2]"
)
ActionChains(driver).double_click(left).perform()
time.sleep(
3
)
# 在账号输入框输入内容
driver.find_element_by_id(
"loginname"
).send_keys(
"***"
)
# 在*处输入账号信息
# 在密码输入框输入密码
driver.find_element_by_name(
"password"
).send_keys(
"***"
)
# 在*处输入密码信息
# 向密码框发送命令,按下回车键
driver.find_element_by_name(
"password"
).send_keys(Keys.ENTER)
|
运行上述代码之后,就会发现你已经自动登录微博了,然后需要跳转到你所要爬取微博内容所在的页面:
# 跳转url到指定页面
driver.get(
"http://weibo.com/btvertaishidai?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop"
)
|
然后就可以开始爬取你想要的信息啦,本人所要爬取的内容有微博的粉丝数量、每条微博的内容(包括点赞数、转发数、回复数)。因为这个页面需要拖动滑动条到网页最下面才能完全显示所有信息,所以在爬取内容之前应该先将滑动条拖到最下方,代码如下:
js
=
"var q=document.documentElement.scrollTop=30000"
for
i
in
range
(
3
):
driver.execute_script(js)
time.sleep(
1
)
|
运行上面的所有代码之后,就可以开始爬取内容了。
# 获取粉丝量
L_1
=
driver.find_element_by_xpath(
".//*[@id='Pl_Core_T8CustomTriColumn__3']/div/div/div/table/tbody/tr/td[2]/strong"
).text
data_text
=
[]
# 保存微博内容
data_time
=
[]
# 保存发布微博的时间
data_relay
=
[]
# 转发量
data_comment
=
[]
# 评论量
data_support
=
[]
# 支持量
for
i
in
range
(
2
,
50
):
try
:
text
=
driver.find_element_by_xpath(
"//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[3]"
%
i).text
Time
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[2]/a[1]"
%
i).text
relay
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[2]/a/span/span/span/em[2]"
%
i).text
comment
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[3]/a/span/span/span/em[2]"
%
i).text
support
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[4]/a/span/span/span/em"
%
i).text
if
text:
data_text.append(text)
data_time.append(Time)
data_relay.append(relay)
data_comment.append(comment)
data_support.append(support)
else
:
pass
except
:
break
|
上面的代码中,对于要爬取的信息并没有采用正则去匹配,而是采用Xpath(比Xpath更为精准定位的是css定位),对于Xpath不懂的可以百度一下。
运行完上面所有代码之后,这一页所要爬的内容就以及全部爬下来并分别保存在L_1(粉丝数量)、data_text(微博内容)、data_time(微博发布的时间)、data_relay(微博内容转发数量)、data_comment(微博内容评论数量)、data_support(微博内容点赞数量),最后你就可以利用pandas将这些数据保存在csv中。
上面的代码只是爬取了一个页面的所需内容,要是想爬取多个页面,稍微修改一下代码就可以了。如果有什么不明白的,可以给文章后面的邮箱发邮件。
全部代码如下:
from
selenium
import
webdriver
from
selenium.webdriver.common.keys
import
Keys
from
selenium.webdriver.common.action_chains
import
ActionChains
import
time
driver
=
webdriver.Firefox()
time.sleep(
3
)
driver.get(
"http://weibo.com"
)
time.sleep(
5
)
left
=
driver.find_element_by_xpath(
".//*[@id='pl_login_form']/div[2]/div[1]/div/a[2]"
)
ActionChains(driver).double_click(left).perform()
time.sleep(
3
)
# 在账号输入框输入内容
driver.find_element_by_id(
"loginname"
).send_keys(
"***"
)
# 在密码输入框输入密码
driver.find_element_by_name(
"password"
).send_keys(
"***"
)
# 向密码框发送命令,按下回车键
driver.find_element_by_name(
"password"
).send_keys(Keys.ENTER)
time.sleep(
3
)
# 跳转url到指定页面
driver.get(
"http://weibo.com/btvertaishidai?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop"
)
time.sleep(
3
)
# 获取粉丝量
L_1
=
driver.find_element_by_xpath(
".//*[@id='Pl_Core_T8CustomTriColumn__3']/div/div/div/table/tbody/tr/td[2]/strong"
).text
data_text
=
[]
# 保存微博内容
data_time
=
[]
# 保存发布微博的时间
data_relay
=
[]
# 转发量
data_comment
=
[]
# 评论量
data_support
=
[]
# 支持量
# 拖动滚动条到最下方
js
=
"var q=document.documentElement.scrollTop=30000"
for
i
in
range
(
3
):
driver.execute_script(js)
time.sleep(
1
)
# 开始爬取该页面所有微博内容以及相关信息
for
i
in
range
(
2
,
50
):
try
:
text
=
driver.find_element_by_xpath(
"//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[3]"
%
i).text
Time
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[2]/a[1]"
%
i).text
relay
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[2]/a/span/span/span/em[2]"
%
i).text
comment
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[3]/a/span/span/span/em[2]"
%
i).text
support
=
driver.find_element_by_xpath(
".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[4]/a/span/span/span/em"
%
i).text
if
text:
data_text.append(text)
data_time.append(Time)
data_relay.append(relay)
data_comment.append(comment)
data_support.append(support)
else
:
pass
except
:
break