之前在一个日企的大型连锁商超企业的管理部门分析衣料类的季节性商品的库存余量问题.由于该企业没有购买任何的统计软件,但又要求不能使用盗版的软件,所以,就使用R语言对整个项目进行了分析,本人对R语言之前就已经接触了近两年.虽然,仅仅是进行了初步的描述性分析.但是,对于数据的处理以及对接可视化的前期数据处理有很多的实际经验,重点集中在对数据管理中的提取、塑形和可视化.
对数据进行分析之前,首先要进行异常值检验,这一步是需要大量探索性分析和业务逻辑推敲的,马虎不得.R语言对异常值的检验也有专门的对策.[1]
首先介绍一下,数据的体量.店铺每年都会增增减减,平均来说有190家,每家大小不一,据说和大润发个头相当.商品的分类有七级分类.在第三级分类Level3中,衣料类就占了5个.光其中1个,全年有售的就有19092个单品.再加上时间间隔是周.算下来数据起码有三个维度:店铺(190)、单品(19092)、周数(52),算下来数据的行数就会超过1亿8千万行.分析就会非常吃力,这样的公司,数据体量非常之大,所以,管理起来非常棘手,要不也不会特意在中国设立一个软件开发工程公司.但实际上,我在分析的时候剪掉了店铺的维度,就将数据缩小了近200倍,再加上商品的季节性强,单品的销售时间短,所以,仅取一年的数据,单品级别的,某一个类别,行数就缩小到38万行.在加上采购和库存数据,结合分析.
原始数据是这样的,时间维度是一列,标识商品的维度是一列,每个商品的不同指标分别为一列.这种数据格式的结构算是未汇总的长数据.
但要想进行多方位的探索,比如对单品进行聚类分析(大数据量就只是用kmeans),就需要宽数据(也就是某一维度的不同取值分别为一行).要想对数据进行汇总分析就需要对数据进行分组,在想要分析的维度上进行汇总(比如,想看每个单品的销售时长等).
数据的长宽变换,需要借助reshape2包[2],更灵活的可以借助前者的升级包tidyr包[3].数据的汇总需要借助dplyr包[4],将数据可视化,需要借助ggplot2包[5],关于使用ggplot2包之前的数据整理可以参见R数据可视化手册[6].
都说数据整理花费时间,有了这几个数据塑形的利器,其实,拼的就是利器.分析的时候会节省大量时间,但也很伤脑筋,劝大家抽空多休息,不要太累了.感谢R语言,以及每一位R包的贡献者.-^---^-
[1]异常值检测:使用R语言进行异常检测
http://m18663397961.blog.163.com/blog/static/24537500620166184248550/
[2]reshape2包:自己搜索.
[3]tidyr包:自己搜索.
[4]dplyr包:.R语言:数据处理包 dplyr
https://www.douban.com/note/516282666/?start=0&post=ok#last
[5]ggplot2包:自己搜索.
[6]R数据可视化手册:自己搜索.