Hadoop离线数据分析平台实战——420订单分析

Hadoop离线数据分析平台实战——420订单分析

项目进度

模块名称 完成情况
用户基本信息分析(MR)� 完成
浏览器信息分析(MR) 完成
地域信息分析(MR) 完成
外链信息分析(MR) 完成
用户浏览深度分析(Hive) 完成
订单分析(Hive) 未完成
事件分析(Hive) 完成

模块介绍

订单分析分别分析订单的数量和订单的金额,
以及将订单分为总订单、
支付成功订单以及退款订单三种类型的数据,
通过这六个分析指标的数据我们可以指定网站的订单情况。

计算规则

和统计stats_event&stats_view_depth表的数据不太一样,
我们采用每个统计指标写一个hql语句+sqoop语句的方法进行数据的插入操作。
也就是说分别统计订单数量和订单金额,而不是使用一张hive表同时保存多个指标的数据,
而是采用多个表分别保存不同指标的数据或者采用一张表非同时的保存多个指标的数据。
分别统计oid的去重数量作为订单数量,使用去重后的订单的支付金额作为订单金额。
最终数据保存:stats_order。涉及到所有列。
涉及到其他表有dimension_platform、dimension_date、dimension_currency_type、dimension_payment_type.

代码步骤

  1. hive中创建hbase对应的外部表
  2. 订单数量&订单金额的hive&sqoop分析
    a. 实现自定义udf&自定义函数创建
    b. hive+sqoop脚本
  3. 成功支付订单数量&金额&总金额的hive&sqoop分析
    a. 订单数据保存mysql
    b. 实现自定义udf&自定义函数创建
    c. hive+sqoop脚本
  4. 退款订单数量&金额&总金额的hive&sqoop分析
  5. shell脚本编写以及测试(作业)

你可能感兴趣的:(Hadoop离线数据分析平台实战——420订单分析)