1.1 亚马逊Kindle电子书相关数据介绍
注释:这里的ASIN相当于之前讲的sku。
1.2 0-1变量、时间序列变量的介绍
分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数据。0-1变量属于分类变量的一种类型。比如:性别的分类变量(男\女)、职业的分类变量(医生\教师\公务员\科学家)、年龄段的分类变量(0-18\19-25\26-30\31-40岁)。
时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
全球温度异常值的时间序列数据图表
1.3 多变量线性回归的概念介绍
多元线性回归模型的数学形式,这里采用的是最小二乘法,最小二乘法指每个点到平面都有一定距离,计算一下这种距离平方累和,求取最小值,这就是回归方式。
多元线性回归的三维仿真图
1.4 亚马逊Kindle书籍多渠道商业分析项目背景介绍
Kindle电子书已经是亚马逊平台上最畅销的书籍类别:在2010年7月,亚马逊的电子书销量超过精装书。 2011年1月,亚马逊的电子书销量超过了平装本。
Kindle阅读器非常适合阅读小说:过去已经有很多研究证明人们对Kindle作为小说的基本阅读设备有着浓厚的兴趣。
小说是所有书籍类别的主要组成部分:“小说”类别是印刷书籍的主要类别(占28%),而电子书则主要是“小说”(占69%)。
拥有电子阅读器和平板电脑的美国成年人比例变化折线图
结论:从电子书分布图可以看出电子阅读器的分布逐渐上升,说明电子阅读器是很多人追书的不错选择。
kindle小说电子书在亚马逊前台的搜索界面
kindle小说电子书的商品详情界面(带有实体书和电子书两种销售渠道)及相关信息
Product details中的ASIN信息、出版(上架)时间信息、排名信息、review信息
listing详情页中的review信息(包括review生成时间和评分)
这次数据是通过亚马逊第三方数据分析软件Helium 10 进行数据抓取。
2.5 亚马逊Kindle书籍多渠道商业分析数据处理思路
通过书籍上架时间差异分析来判断亚马逊书籍发售策略指我们通过观察亚马逊发售书籍是否存在策略,首先必须验证这一点。
Kindle电子书上架时间与平装本书籍上架时间差异的分布图
Kindle电子书上架时间与平装本书籍上架时间差异的分布图
结论:在Kindle电子书上架时间与平装本书籍上架时间差异的分布图上,我们可以看出,大部分电子书在平装本发售的2-3个月后发售,小部分在实体书发售很长时间后发售。在我们的认知里,随着平装本发售时间越长,电子书发售数量减少,看上去符合我们的认知。可是,Kindle电子书上架时间与平装本书籍上架时间差异的分布图在3年时间,电子书大量发售。这就说明亚马逊发售书籍是存在策略。
数据整个流程包括数据采集、数据清理、数据分析。数据采集指从亚马逊的第三方工具/第三方平台获取历史价格和排名数据,从亚马逊平台获取历史review数据。数据清理指清除数据集中的无效数据,数据分析指使用线性回归分析模型中每个变量的参数大小和统计显着性,并找出哪些变量会影响小说电子书的销售,对回归结果的自序列相关性和异方差性进行检测,通过改进计算方法提升回归有效性。
2.6 亚马逊kindle书籍商业分析Python处理
这次亚马逊亚马逊kindle书籍商业分析用Python处理是因为数据量太大,同时需要合并。
第一步:多批量文件/数据读取
第二步:将读取的数据在Python中转变成适合分析的形式(数组形式)
第三步:数学建模,确立因变量与自变量的数学形式
第三步:数学建模,确立因变量与自变量的数学形式(参考价格相关模型)
第四步:对数组形式的数据使用Python进行多元线性回归分析
第五步:评估回归质量与有效性,检查自序列相关性问题与异方差性问题
自序列相关性指点到线上的距离,随着x增大,点到线的距离越大,二者之间有着强关联性。
异方差性指前面的数据都符合线性回归,后部分数据存在很大的差异。
结论:通过DW检测,如果DW数值接近于0或者4,意味着回归的结果存在自序列相关性,如果DW值在1.5-2.5之间属于正常值。
结论:通过R^2*observations检测,如果这个数值特别大,意味着回归的结果存在异方差性,如果这个数值特别小属于正常值。也就是所谓的卡方检测。
结论:处理异方差性和自序列相关性,各项数值显示都是正常的。
2.7 电子书对实体书销量影响程度判断与影响因素确定
6种渠道发售策略下不同因素对电子书销量的影响
6种渠道发售策略下“参考价格”相关要素对电子书销量的影响
结论:由于消费者对电子书的价格弹性会随着时间的推移而降低,因此电子书零售商可以缓慢提高价格并获得更多利润。
当与电子书相对应的精装本或平装书刚刚发行时,电子书零售商可以利用消费者参考价格的变化来增加电子书的利润。
当电子书和精装书为最早发售的两个渠道时,这说明电子书具有较高的内容质量,因此电子书零售商可以逐步提高电子书的价格。