使用爬虫抓取PMCAFF社区优质问答数据并简单分析

PMCAFF社区优质问答页面积累了大量的问题和精彩回答,但是页面并没有一些排序、筛选的选项(我没有账号,不知道登陆之后会不会不一样),尝试使用爬虫抓取了页面的一些数据,再来做个简单的分析筛选。

抓取的数据包括标题、阅读数、回答数、最后回答的时间。

总共抓到900+条数据,去重之后是694条。

使用爬虫抓取PMCAFF社区优质问答数据并简单分析_第1张图片
阅读排名前20的问题

阅读排名第一的是产品bug收集贴,我们排除在外,阅读量最高的前20个问题如上图。

这20个问题平均回答数44,但是可以看到两个100+的问题大大拉高了平均值,而这两个问题都是调查类的问题,参与人数较多。除去两个最高值之后的平均回答数是31。

根据这个阅读数排序,是不是可以出一篇“PMCAFF有哪些值得推荐的精彩问答?”

使用爬虫抓取PMCAFF社区优质问答数据并简单分析_第2张图片
阅读排名末20的问题

为什么这些问题的阅读数低?这是一个值得思考的问题。

使用爬虫抓取PMCAFF社区优质问答数据并简单分析_第3张图片
透视下

不知道怎么才能算作是优质问答,2017年很多阅读量很好的,大家参与积极的话题没被归到优质回答里。

以上。

需要原文件的自己下载好了,链接:http://pan.baidu.com/s/1jIA4k9w 密码:hjun 。

你可能感兴趣的:(使用爬虫抓取PMCAFF社区优质问答数据并简单分析)