基于hadoop+hive+hbase的用户消费行为的大数据分析

基于用户消费行为的大数据分析

  1. 题目背景
    在社会经济蒸蒸日上的今天,人们的购物行为越来越频繁,但是线上商品良莠不齐,很难抉择,很多时候我们都需要参考其他用户的评价来对商品进行性价比判断。因此,商家需要对每一件商品进行好评度分析,并反馈给客户;此外,随着人们生活节奏的加快,保持记账习惯的人越来越少,然而了解自己的购物习惯和消费趋势对于人们掌握和控制自己的生活来说又是如此重要。如果商家能够对用户的消费情况作出合理的统计分析,并将结果反馈给用户,对提升用户的体验度也会很有帮助。如:用户A最近一个季度之内购买衣服花的钱占据了消费总额的50%,需要调整一下;用户B在过去的一年中购买书籍文具用品的花费不足消费总额的5%,该多看看书提升一下自己。
    本题目主要完成基于用户消费行为的大数据分析,一方面,学生模拟线上商家针对自己的商品做客户满意度调查,通过对用户消费行为数据进行计算处理,统计每个商品的好评度信息;另一方面,学生需要统计用户在整个购物周期内对不同种类商品的消费情况,帮助用户对自己的消费行为产生更加直观清晰的认知。
  2. 题目介绍
    针对以上背景,可以采用大数据的技术解决方案来帮助在线商家掌握商品满意度情况和用户购物情况。在本题目中,我们使用大数据平台中的ETL工具(自选)从数据源获取历史数据,使用MapReduce对数据进行清洗以及计算商品好评度,然后使用Hive统计出用户在每一个购物周期内(如1个月)对不同种类商品的消费情况。
    具体实现框架如图1所示:数据流详情:

数据流详情:

基于hadoop+hive+hbase的用户消费行为的大数据分析_第1张图片

  1. 题目数据
    获取用户历史消费事实数据以及用户、商品的相关数据,并将其存入本地数据库中。这一部分工作可以在竞赛前期完成,比赛主办方提前规划几十种商品作为分析目标,然后通过购物网站(在考题主页上访问购物网站)上的电子问卷获取学生购物的“类真实”历史数据。数据收集完成之后统计学生维度、商品维度相关信息以维表的方式存入集群外某节点的MySQL数据库中(节点IP地址为172.16.2.71,可以通过SSH方式访问,用户名为test,密码为Huawei@123;登录MySQL数据库的方式:mysql -u bit -p;密码为Huawei@123;数据库为tech_bigdata1),生成商品维表、用户维表,并将学生“购物数据”以事实表的方式存入数据库中,生成销售事实表。
    学生在PC终端通过访问预制的简易购物网站产生购物动作,并把相关购物信息传入销售事实表中保存。为了扩充数据量,以上数据将被适当进行复制处理。此外,为了模拟噪声数据,我们将在以上数据表中加入部分有缺失值或者类型错误的数据。数据结构如下:
    “销售事实表”结构如下表所示(备注:effective字段表示添加关注、加入购物车、付款或者退款,1—“添加关注”,2—“加入购物车”,3—“付款”,4—“退款”):

“用户维表”结构如下表所示:

“商品维表”结构如下表所示(备注:该表格中内容已经预制,约50种商品;其他一栏中可填写“商品风格”等标签信息):

你可能感兴趣的:(数据可视化分析,hadoop大数据分析,计算机毕设,hadoop,hive,hbase)