那些年的畅销书你看了吗?当当图书畅销榜分析

使用python爬取当当网2015年到2018年图书畅销榜,分析近年来大众阅读习惯的变化。

1、数据爬取

    分析排行榜网面源码,可以找到数据所在的url地址为"http://bang.dangdang.com/books/ebooks/98.01.00.00.00.00-year-2015-0-1-1",翻页观察url的变化,提炼出标准化url:"http://bang.dangdang.com/books/ebooks/98.01.00.00.00.00-year-{}-0-1-{}",其中{}表示变化的内容,第一个{}是畅销榜年份,第二个{}是页码。分析所要数据在html中的位置,利用xpath提取(也可以用re,不过我比较习惯用xpath),最后将数据保存在数据库中。直接上代码啦!


2、数据清洗

首先查看下获取的数据长什么样!

代码:

结果:


有些字段是不需要的,如”_id“是mongodb自动添加的,删除不需要的字段或者直接选择需要留下的字段

code:

结果:

对选择的字段内容进行处理

可以看到,数据有很多不规范,比如ranking的值后面都有一个".",需要去掉, price,comment_amount等含有特殊的货币及评论文字,不便于后续分析,考虑将其中含有的文字信息去掉。

通过观察可以看出, 很多字段的处理都是需要截取其中的一部分数字内容,因而可以定义一个截取的函数,方便反复使用。

code:

使用定义的函数依次对需要截取的字段进行处理

code:

结果:

从author字段中提取作家国籍

观察author字段中作者出现的形式,定义提取国籍的函数

code:

结果:

3、数据分析

图书类别分析

大类别分析

下面4幅图分别展示了不同年份畅销书类别排行榜,可以看出:1、小说、童书和文学类书籍一直位于畅销榜的前三甲,且小说及童书类与其它类别的差别较大。从发展趋势看,童书在近两年来逐渐超过小说成为最畅销的图书类别;2、总体来看,位于畅销榜前10的图书类别较为稳定,除近两年来青春文学类畅销排名有所下降,亲子及中小学辅导类畅销排名有所上升。可以看出,父母越来越重视孩子的早期教育,商家可考虑丰富童书类型,中小学辅导教材等。

童书类别细分

下面4幅图是对童书类别的细分,可以看出:中国儿童文学、科普及外国儿童文学一直是童书这一大类别下最畅销的子类别,且每年进入畅销排行榜的子类别都有所增加,看来祖国的花朵的阅读面越来越广啦。平台可考虑增加新的图书类型来增加卖点哦!

小说类别细分

下面4幅图是对小说类别的细分,可以看出:社会类小说一直位于小说类畅销榜的榜首。外国小说及世界名著类的畅销程度逐年攀升,大众的阅读范围更加广泛。

重复上榜率分析

统计每本图书出现在不同年份排行榜的次数,如下条形图及饼状图所示。可以看出:1、有将近45%的图书不止一次出现在了畅销榜上。图三是15年畅销榜书籍在以后各年依然位于畅销榜的漏斗图,可以看到,这一留存比率大约在55%-60%之间,说明图书畅销的热度有很大概率会持续,平台可考虑备货畅销榜书籍,通过数据分析手段识别没有购买畅销书籍的用户,向他们推荐畅销书籍。2、同时,畅销榜上的新书比例超过了55%,漏斗图中,到18年15年畅销书籍的留存率只有19%,说明大众阅读喜好的逐渐改变,商家要时刻关注大众新的阅读兴趣。

畅销排名与价格关系

图书是否畅销与图书价格是否有关系呢?下面4幅图是各年份图书价格与图书畅销排名的散点图。可以看出:1、图书的畅销程度与其价格高低并没有明显的线性关系,畅销榜上书的价格主要集中于25元左右;2、除去图书高度集中的价格区域,在图中较为稀疏的区域有近似的正向影响关系?是否可以猜想,图书价格过高(高于某一临界值,超出大众心里预算?)对图书销售有一定影响。3、15及16年畅销书基本集中于50元以内,17及18年畅销书的价格分布范围更广,尤其是50-100价格区间的畅销书数量显著增加,甚至出现超过500的畅销书。说明大众在图书消费方面的预算有逐渐增加的势头。在箱形图中,17年及18年的箱体更宽,平均数更高,也体现了这一趋势。

图书价格箱形图

图书国别分析

下面4幅图展示了15年到18年排行榜图书所属国家的数据情况,可以看出:1、每年位于排行榜上的书籍超过一半都是国内作家的作品。2、排行榜前5名的国家基本保持不变,16年日本超过英国成为第三名,毕竟东野圭吾的作品近年来在国内很欢迎的呀

畅销作家及作品榜

说了这到多,到底最受欢迎的作家作品有哪些,就在下面啦,这些书小伙伴们都看了吗!!!

4、总结

1、通过对于畅销图书类别的分析得出,童书及小说一直具有较高的销售热度,且童书的热度有不断攀升的趋势,这或许源于父母越来越重视孩子的早期教育。

2、通过对小说细类分析得出,社会类小说一直位于小说类畅销榜的榜首。外国小说及世界名著类的畅销程度逐年攀升,大众的阅读范围更加广泛。

3、通过分析图书上榜次数得出,图书留存比率大约在55%-60%之间,说明图书畅销的热度有很大概率会持续,平台可考虑备货畅销榜书籍,通过数据分析手段识别没有购买畅销书籍的用户,向他们推荐畅销书籍;同时,畅销榜上的新书比例超过了55%,漏斗图中,到18年15年畅销书籍的留存率只有19%,说明大众阅读喜好会逐渐改变,商家要时刻关注大众新的阅读兴趣。

4、通过对畅销书价格分析得出,1、图书的畅销程度与其价格高低并没有明显的线性关系;2、图书价格过高(高于某一临界值,超出大众心里预算?)时对图书销售有一定影响。3、大众在图书消费方面的预算有逐渐增加的势头。

5、通过分析畅销书作者国籍情况得出,日本作家作品近年来受到的关注有所增加。

你可能感兴趣的:(那些年的畅销书你看了吗?当当图书畅销榜分析)