微博搜索关键词爬取数据

概要:

微博任意关键词搜索,采集:用户名、用户链接、会员类型、评论内容、评论时间、来自终端、转发、评论、点赞。关注公众号“数云智连”,回复“微博关键词采集”获取下载链接

采集结果数据示例:

一、程序实现步骤
1、登录输入账号密码;

2、打开微博搜索页输入关键词搜索;

3、分析翻页链接,提取通用采集链接

输入搜索词:电影,查看几页看下链接

第1页:
https://s.weibo.com/weibo?q=%E7%94%B5%E5%BD%B1&Refer=SWeibo_box&page=1

第2页:
https://s.weibo.com/weibo?q=%E7%94%B5%E5%BD%B1&Refer=SWeibo_box&page=2
这里可以分析出关键词有转码,页数用拼接,通用链接即为;https://s.weibo.com/weibo?q={}&Refer=SWeibo_box&page={}引入urllib进行网址编码:
from urllib import parse
dict_weibo ={'q':key_word,'Refer':'SWeibo_box','page','={}'}
start_url='https://s.weibo.com/weibo?'+parse.urlencode(dict_weibo)
即得到:
https://s.weibo.com/weibo?q=%E7%94%B5%E5%BD%B1&Refer=SWeibo_box&page={}
{}内做个循环变量赋值就得到了所有页数的链接

3、解析和爬取单个网页每个商品信息

循环每页每一个数据块,分别提取:用户名、用户链接、会员类型、评论内容、评论时间、来自终端、转发、评论、点赞

4、数据存入excel

二、采集程序使用

1、回复:微博关键词采集,获取下载链接;
2、"采集设置.txt"中设置:用户名、密码、关键词、采集页数
用户名、密码是为了采集更多页数数据,未登录只能采集第一页;采集页数新浪做了限制,最多只能采集50页

3、双击bin目录下的“weibo.exe"运行,会自动生成"weibo.xls"的excel文件,存储采集结果

三、程序运行环境
请务必是win7 以上64位系统;同之前文章https://www.jianshu.com/p/e4b9eef3adaa
双击安装python-3.6.6-amd64.exe勾选“Add Python 3.6 to PATH"(添加python到环境变量,python必须的运行环境)、双击“程序运行环境安装.py”一键完成运行环境配置。

配置后双击“tianyancha.exe",自动打开chrome浏览器输入账号密码,开始愉快的采集吧。如果装有流氓360可能会提示阻止chrome,记得允许。

你可能感兴趣的:(微博搜索关键词爬取数据)