最近在整理spark技术的应用,觉得 行为特征归类, 相似产品或相似功能推荐 这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.
实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/
案例主要要求如下:
这个项目对知识要求比较高,hadoop框架 和spark框架都要会.下面是一个技能要求表:
所以一篇写不下.只是重点说下练习中遇到的重点和难点吧.
首先,我最有点好奇的是"数据预处理"这个步骤. 一般原始数据是很大的文件,里面内容格式也是比较杂乱的,一次跑成功也不可能.
一般数据预处理分3个步骤:
本人的理解是,(1)对元数据的数据类型归类,比如日期是date型的,date型也可以转成字符串型,而在比较日期的时候,转成long型更好;而转成long型又不好转回去,因此可以增加一个long型字段,用来表示long型的日期时间;
(2)过滤偏差数据. 这个应该很难处理,毕竟数据集那么大.可以针对异常数据设置过滤条件,可是过滤条件又不好拿捏.而且实际上,条件可能五花八门.比如买同一件商品,它可能来自上个用户退订产生的,这样可能导致订单总金额与收支流水不一致.
还有比如数据格式不统一,上一行同一列是年龄字段,下一行该列却是金额字段.等等.
(3)偏差统计.这个需要用到统计数学了,听说数据科学家在这方面研究比较多.
这个案例的"数据预处理"不多,主要是截取一小段数据片,比如10000行数据,预先导入HDFS文件里面,试运行一下,然后把bug处理掉.
下回说下本人在Hive分析上遇到的情况吧.