基于spark+hive+hbase的乘用车辆和商用车辆销售数据分析

基于spark+hive+hbase的乘用车辆和商用车辆销售数据分析_第1张图片

1.项目背景
汽车销售是消费者支出的重要组成成分,同时能很好的反映出消费者对经济前景的信心。通常,汽车销售情况我们了解一个国家经济循环强弱情况的第一手资料,早于其他个人消费数据的公布。因此,汽车销售为随后的零售额和个人消费支出提供了很好的预示作用,汽车消费额占零售额的25%和整个销售总额的8%。另外,汽车销售可作为预示经济衰退和复苏的早期信号。在本项目中,学生将从各个角度对汽车销售数据进行分析,了解当前汽车行业市场、用户市场、不同品牌市场的基本情况,以及指定汽车品牌的竞争优势。
2.项目介绍
学生需要先在大数据环境中安装客户端,建议客户端安装目录为/home/当前OS的用户名/client/,然后将车辆销售数据(保存在集群外某节点的MySQL数据库中)通过合适的ETL工具集成到集群当中,然后使用MapReduce对数据进行清洗,补充缺失字段,保留后续用MR/Hive对数据进行分析需要使用的字段。再用MR/Hive/Spark对清洗后的数据进行处理,针对汽车行业市场、用户市场、不同品牌市场和特定品牌竞争优势进行统计分析,分析结果保存到MySQL中,自定义结果保存表格格式,并在最终提交的文案中说明保存路径。

主要分析内容如下:
3.题目数据
本项目数据放在文件系统服务器,需要用wget的方式获取。
在桌面右键,在弹出的菜单中选择【在此处打开中终端】,输入
“wget file.ictedu.com/shoppingmall/techgz_data/data3.tar.gz”,下载完成后输入“ls”,查看数据是否存在。
数据内容为上牌汽车的销售数据,分为乘用车辆和商用车辆,数据包含销售相关数据与汽车具体参数。销售相关数据包括制造商、市、年、车辆型号四个属性,样例数据如下:

汽车具体参数数据包括汽车生产地点、生产时间、车辆型号、品牌、车辆类型、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、购买人相关信息等,样例数据如下:
基于spark+hive+hbase的乘用车辆和商用车辆销售数据分析_第2张图片

4.安装FusionInsight-HD平台
4.1.访问大数据管理节点节点
(1)进入实验环境
点击大数据管理节点,进入管理节点所对应的机器。

(2)输入命令ip a
可以得到大数据管理节点的ip地址
拷贝代码ip a

你可能感兴趣的:(数据可视化分析,hadoop大数据分析,计算机毕设,hive,spark,hbase)