爬虫抓取微信读书的想法

最近有个想法,把这几年在微信读书的笔记和想法抓下来。

工具准备:

1、云采爬虫 (数据采集)

2、charles (抓包+代理)

抓包

 

首先你得让你的iPhone 使用 MAC代理上网。

启动 charles, 他有个代理功能。

然后使用iPhone连接这个代理上网就行了。这个步骤就省略了,网上教程很多。

抓包的界面如图所示:

 

爬虫抓取微信读书的想法_第1张图片

这个过程就不再详细介绍了。不是重点。

首先你得拿到请求的url、cookie,还有一个叫做 skey 的 东西。

抓取数据

请求地址:

https://i.weread.qq.com/review/list?count=20&listMode=1&listType=6&maxIdx=1579514807&mine=1&rangeType=1&userVid=2107157

 

数据如下所示:

爬虫抓取微信读书的想法_第2张图片

是json数据,结构很简单。

如何翻页?

url里面的 maxIdx 参数,就是每一次获取到的json数据的最后一条记录的 createTime ,把这个放进去构造下一页请求地址就行了。

整个抓取流程图如下:

 

 

爬虫抓取微信读书的想法_第3张图片

 

总共抓取到666个想法,生成词云如下:

 

这是我的笔记:

爬虫抓取微信读书的想法_第4张图片

 

这是原始的书摘:

 

爬虫抓取微信读书的想法_第5张图片

 

 

 

 

你可能感兴趣的:(爬虫抓取微信读书的想法)