2019-03-01(未完成)

最近在学习数据分析,接触到知乎上知友“”的内容,有一篇是他将豆瓣上6万本书籍基础信息爬到并且分享给大家(链接:),于是自己也想以这部分数据为例,以我自己对数据分析的方法论,实践一次。

前提有个说明,是因为不知道他是以什么样的规则爬取的,所以样本可能有偏差,但这不可避免,因此不再讨论。

出发点

数据分析第一步:知道自己为什么要分析。

分析的目的是为了解决一个业务问题、验证一个假设、发现一个探索性的规律等,而不是为了分析而分析。

所以我给自己预设一个场景:我是一个图书爱好者,希望能从这里面找到好书;以及我是一个出版行业的入门者,希望能从这里面的数据探索一些趋势,增加对初版行业的了解。

初始数据的整理

拿到这张表,我发现表格还是需要整理的,例如:

1、作者里面有出现作者和译者信息的情况、有多个作者的情况;

2、出版时间有多种格式

3、价格有不同类型的价格(如台币)、货币的不同表现方法

4、...

因此需要对数据做基础的清晰和整理,使之成为一张可以分析的表格。

但在实际清理过程中发现,直接在原数据里做清理,工作量和难度都很大,因此决定先做正常分析,分析过程中发现有误差的情况下,再做处理。这样灵活性更高,并且显著降低工作量。

分析

1、我想知道哪些书是好书

首先从图书分值分布来看,整体打分是符合正项分布的。另外也能看到一个异常:约有6600本书目前还是0分,即还没有人看,占比超过了10%。

单看正项分布的区域,发现大部分书籍的评价是在7.4-8.7分左右,因此可以初步猜测当一本书分数小于7.4分且评价人数不是过低(比如低于200、300),可能内容质量就已经不高;而高于8.7且有很多人看的书,基本可以判断为很高质量的书籍了。


你可能感兴趣的:(2019-03-01(未完成))