爬虫抓取豆瓣小组的数据

 

豆瓣小组没什么反爬,也不需要登录。抓取不能太频繁,得切换代理ip。

豆瓣的页面结构也挺好分析,不用什么ajax。

工具准备:云采爬虫 

数据结构:

 

我们需要抓取帖子回复、评论数据

数据结构如下:

 

爬虫抓取豆瓣小组的数据_第1张图片

流程图设计:

 

爬虫抓取豆瓣小组的数据_第2张图片

 

我们来分析一下整个过程:

1、提取列表链接:

 

比如这个地址:https://www.douban.com/group/240355/discussion?start=0

 

爬虫抓取豆瓣小组的数据_第3张图片

 

爬虫抓取豆瓣小组的数据_第4张图片

分析可以知道,选择【css选择器】,直接填:

 

td.title

测试结果:

爬虫抓取豆瓣小组的数据_第5张图片

 

2、提取帖子标题、内容、发布时间等

这些数据是从详情页直接抓取的,如图,直接用css selector 获取就行

爬虫抓取豆瓣小组的数据_第6张图片

 

3、抓取评论:

首先我们使用一个【字段循环区域】来获取整个评论循环

 

爬虫抓取豆瓣小组的数据_第7张图片

 

测试如图所示:

 

爬虫抓取豆瓣小组的数据_第8张图片

 

这样看可能还不够直观,我们点击到trace分析看看:

爬虫抓取豆瓣小组的数据_第9张图片

 

我们再从这些循环单元里面提取评论的内容和时间等。

 

如图,再拉一个【数据提取】直接提取就行了。

爬虫抓取豆瓣小组的数据_第10张图片

 

评论翻页

 

评论是翻页的,我们如何翻页获取评论?

爬虫抓取豆瓣小组的数据_第11张图片

 

我们在【详情页】这个组件直接拉一个【下一页】,获取下一页的链接就行了。

 

 

数据预览:

爬虫抓取豆瓣小组的数据_第12张图片

爬虫抓取豆瓣小组的数据_第13张图片

 

不用写任何一行代码,也不用什么高深的知识,轻而易举就能抓到数据。

 

你可能感兴趣的:(爬虫抓取豆瓣小组的数据)