数据处理之关联多表(第12章)

本文介绍《深入浅出数据分析》书中的第12章内容。本篇文章蜻蜓点水地引入了RDBMS,在企业中,关系型数据库是常见的存储数据的工具。了解关系型数据库,利用数据库中的表之间的关系把数据关联在一起进行有效的比较,能得出有用的结论。

分析目标:找出在每一期刊物上刊登文章的最优数量。

量化目标:汇总每一期的文章数目和销量,当小于最优数目时,销量下降;当大于最优数目时,销量也没有增长。

数据说明:每一期杂志刊登一批文章;每一笔销量指一期杂志的一批印刷品(一般100份);每位作者写一批文章。

数据准备

分析方法:用EXCEL中的函数countif和sumif通过汇总将文章数目和销量关联起来,再通过可视化观察最优销量。由下图可知,文章数目超过10时,已无法提高销量;文章数目少于10时,会降低销量。显然,《新闻》应坚持刊登10篇左右的文章。

可视化

用RDBMS维护数据关系,可让数据查询更容易

分析目标:哪几位作者最受欢迎?

量化目标:找出作者发表文章的点击率和评论数,点击率越高,评论数越多,表示作者越受欢迎。

数据呈现:如下图所示,Rafaela的表现最好,她所有的文章点击率都在3000以上,且大部分文章都有20多篇评论,看来人们真的很喜欢她;其他作者的表现有好有坏,Destiny和Nicole表现较好;Niko的表现数据很分散,而Brewster和Jason则表现得不太受欢迎。

可视化

你可能感兴趣的:(数据处理之关联多表(第12章))