spark对电商用户订单行为特征分析(一)

最近在整理spark技术的应用,觉得 行为特征归类, 相似产品或相似功能推荐 这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.

实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/

案例主要要求如下:

  1. 对文本文件形式的原始数据集进行预处理
  2. 把文本文件的数据集导入到数据仓库Hive中
  3. 对数据仓库Hive中的数据进行查询分析
  4. 使用Sqoop将数据从Hive导入MySQL
  5. 利用Eclipse搭建动态Web应用
  6. 利用ECharts进行前端可视化分析
  7. 利用Spark MLlib进行回头客行为预测

这个项目对知识要求比较高,hadoop框架 和spark框架都要会.下面是一个技能要求表:


spark对电商用户订单行为特征分析(一)_第1张图片


所以一篇写不下.只是重点说下练习中遇到的重点和难点吧.

首先,我最有点好奇的是"数据预处理"这个步骤. 一般原始数据是很大的文件,里面内容格式也是比较杂乱的,一次跑成功也不可能.

一般数据预处理分3个步骤: 

spark对电商用户订单行为特征分析(一)_第2张图片

本人的理解是,(1)对元数据的数据类型归类,比如日期是date型的,date型也可以转成字符串型,而在比较日期的时候,转成long型更好;而转成long型又不好转回去,因此可以增加一个long型字段,用来表示long型的日期时间; 

(2)过滤偏差数据. 这个应该很难处理,毕竟数据集那么大.可以针对异常数据设置过滤条件,可是过滤条件又不好拿捏.而且实际上,条件可能五花八门.比如买同一件商品,它可能来自上个用户退订产生的,这样可能导致订单总金额与收支流水不一致.

还有比如数据格式不统一,上一行同一列是年龄字段,下一行该列却是金额字段.等等.

(3)偏差统计.这个需要用到统计数学了,听说数据科学家在这方面研究比较多.


这个案例的"数据预处理"不多,主要是截取一小段数据片,比如10000行数据,预先导入HDFS文件里面,试运行一下,然后把bug处理掉.

下回说下本人在Hive分析上遇到的情况吧.

你可能感兴趣的:(spark,scala,大数据)