数据告诉你|大家在读什么,写什么,问什么

01 正确地勤奋

时间如此宝贵,我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢?

想办法,自动化你的工作。

比如,你的老板让你去统计一下对手公司的产品价格数据,你是要一条一条地去复制粘贴么?

比如,你的老板让你去收集近一个月的项目招标书,你是要一条一条地去搜索复制么?

NO!

最近,我学习了一下web scraper,这是google chrome浏览器的一个插件,是爬取网页信息的神器。

与python相比,web scraper易学易上手,在简要爬取网页内容方面,其可视化程度,便捷性都略胜一筹。

不过若是想要深度爬取网页信息,还是建议python走起。

好了,闲话不多说,看看我用web scraper干了些什么。

02 爬取爬取爬取

学会了web scraper,好奇心骤然升起:

  1. 大家最近都在读什么书呢
  2. 大家最近都在问什么问题呢?
  3. 大家最近喜欢看什么样的文章呢?

于是,我用web scraper分别爬取了:

  • 亚马逊图书和豆瓣阅读上的100个热门书籍,作者,评分和评论数;
  • 知乎上最近1个月的200个热门回答,点赞量,作者以及作者介绍;
  • 最近的100篇热门文章,及其阅读量,点赞量和作者。

然后把这些数据以csv 格式存储到本地,放到SQL关系数据库中,再顺带用python jieba分词看看关键字,用聪明的大脑分析。整个爬取分析流程如下图:请大家忽略那个双黄蛋,谢谢(ಥ_ಥ)

数据告诉你|大家在读什么,写什么,问什么_第1张图片
web scraper抓取流程

结果蛮有意思的,来看看吧!(以下都是个人观点,相信我,我说的都是错的)

文末有总结

03 大家在读什么

要知道,向别人索要书单,是让自己退步最快的方式。以下分析,仅限于了解大众的口味。

说说中文图书吧,不论是亚马逊还是豆瓣阅读的数据,都显示:

1.更多的人喜欢读小说——前10名无一例外,全是虚构类

  • 更多的人选择推理类,科幻类的小说作品。
  • 恭喜东野圭吾,刘慈欣荣获最受读者关注作者奖。
  • 追风筝的人,评论数,讨论量远超第二名,荣获最受读者关注图书奖。
  • 最近欢乐颂这部小说很火啊~

2.非虚构类图书,人们口味偏向于以下三类:

  • 社会科学:乌合之众,人类简史,极简欧洲史
  • 个人成长:好好学习,心理学,时间管理。
  • 儿童教育类

另,穷查理宝典这本被严重低估的书籍,榜上有名,第83名,耶。

数据告诉你|大家在读什么,写什么,问什么_第2张图片
受欢迎的作者们


04 大家在问什么

以知乎本月热门回答url为入口,爬取了本月所有热门回答,将这200个问题的标题用jieba库分词并查看权重。

得到下面这张图,通过该图,我们可以粗略的了解,大家最近都在关心些什么话题:

户型,国外品牌,小孩,资源,游戏,买房,健康……

结合SQL,进一步分析数据,得到以下几个推论:

  1. 人们越来越关注健康:点赞量前20的回答中,有6个关于健康
  2. 年轻人很迷茫,人们越来越关注个人成长:可能源自知乎用户群体特征
  3. 人们喜欢听故事,特别是剧情反转,咸鱼翻身的故事
  4. 热门回答中,获得总点赞数最多的答主:丁香医生(5170),周小肉(3025),娱我所欲也(2962)
数据告诉你|大家在读什么,写什么,问什么_第3张图片
热门问题关键字


05 大家喜欢读什么样的文章

以本月热门文章为入口,爬取了上100篇热门文章的标题,作者,浏览量,点赞量。

想要研究一下,什么样的文章标题能够吸引大家的注意力,哪个作者影响力更大。

  1. top100中,获得总点赞量前三的作者:陈姿依(5048),韩大爷的杂货铺(3274),有备而来的路人甲(3216)
  2. top100中,获得总浏览量最高的作者:韩大爷的杂货铺(26450),瓯南(18677),空白中的独舞(14082)
  3. 人们喜欢读哪类文章(基于点赞量和浏览量):
    • 清单类:大学两年读了200本书,想你推荐这7本
    • 具体数字类:30个孤独的夜晚,我为你准备了30段独白和20张照片
    • 青春梦想类:有趣的灵魂很少,但大家都觉得自己是例外
    • 实践方法论类:每天早起半小时读书,坚持一年会改变自己吗

同样地,将这100篇文章标题用python jieba库分词并分析权重,得到下图,看看大家在写什么,读什么文章:

读书,大学,塑身,月薪,思维习惯,低品质,干货……

数据告诉你|大家在读什么,写什么,问什么_第4张图片
热门文章标题关键字


06 总结

通过Web Scraper, python jieba, sql语句,爬取并简要分析了豆瓣,亚马逊,知乎,上,最近1个月的话题趋势,总结如下:

  1. 读书:人们更喜欢读推理科幻类小说,和社会科学/个人成长/儿童教育类非虚构类书籍
  2. 提问:人们越来越关注健康,个人成长,人们喜欢听故事
  3. 写作:人们更容易点击清单类/具体数字类/方法论类/梦想类的文章标题

以上分析仅供参考,希望对你有用。

你可能感兴趣的:(数据告诉你|大家在读什么,写什么,问什么)