本报告记述一个悲惨的故事。因为追星,我决定用大名鼎鼎的weibospider爬取███的微博数据。我花了一个下午来搞清楚怎么用weibospider,早知如此我一下午直接用来刷███的微博多好。
weibosiper_readme中说明有两种安装方式,一种是源码安装,另一种是pip安装,二者功能完全相同。如果需要修改源码,用第一种方式。
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
$ python3 -m pip install weibo-spider
原本我使用了pip安装,但是并没有成功,于是决定不再偷懒,开始尝试源码安装。
首先安装git
https://git-scm.com/download/win
安装时我选择了一路next,全部选择默认模式。
安装完成后,还必须添加环境变量。也就是将下面两个路径添加到PATH。
...(你的git安装路径)...\Git\bin
...(你的git安装路径)...\Git\mingw64\libexec\git-core
接着重启cmd或者anoconda prompt,就可以使用git clone命令。注意的是这一行:
$ pip install -r requirements.txt
速度会非常慢。所以可以考虑换成清华的镜像。
$ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple
-r requirements.txt
这一步非常坑,我搞了好久才搞明白怎么运行。
首先必须在cmd或者anoconda prompt将目录转移到weibospider的目录,比如我的目录就是
(E:\Python\Anaconda3) C:\Users\Administrator\weiboSpider>
然后非常神奇的事情是,如果我直接从文件里面一层一层找下去,是找不到weiboSpider这个文件夹的,只能复制路径直接搜索才能找到目录。
在这里我浪费了很多时间,现在想起来就是很后悔。
接下来直接运行
python -m weibo_spider
P.S. readme中是python3,但是我好像没办法用python3运行成功。
运行成功之后会出现:
(E:\Python\Anaconda3) C:\Users\Administrator\weiboSpider>python -m weibo_spider
请先配置当前目录(C:\Users\Administrator\weiboSpider)下的config.json文件,如果想了解config.json参数的具体 意义及配置方法,请访问
https://github.com/dataabc/weiboSpider#2程序设置
于是我们来到刚才那个路径下,就会发现真的出现了一个config.json文件。
按照指引文件对config.json文件进行修改,记得得修改cookie,随后运行代码。
$ python -m weibo_spider --config_path="config.json"
然后我就成了。
这只是一份使用报告,后面要再具体思考以下两个问题: