大数据应用技术课程实践--选题与实践方案

一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

选题:1.Hadoop平台应用

  • 淘宝双11数据分析与预测
  • 官网:http://dblab.xmu.edu.cn/post/8116/

理由:对于使用hadoop实验比较熟悉一点

二、实践方案

简要说明理由。

步骤零:实验环境准备 查看实验指南
步骤一:本地数据集上传到数据仓库Hive 查看实验指南
步骤二:Hive数据分析 查看实验指南
步骤三:将数据从Hive导入到MySQL 查看实验指南
步骤四:利用Spark预测回头客 查看实验指南(Scala版)
查看实验指南(Python版)
步骤五:利用ECharts进行数据可视化分析 查看实验指南

三、实践任务分解

根据所选的题目,明确实验步骤,分解任务到每天。

1. 安装Linux系统;

2. 安装Hadoop;

3. 安装MySQL;

4. 安装Hive;

5. 安装Sqoop;

6. 安装Spark;

7. 安装Eclipse;

8. 数据集预处理;

9.把文本文件的数据集导入到数据仓库Hive中;

10.对数据仓库Hive中的数据进行查询分析;

11.使用Sqoop将数据从Hive导入MySQL;

12.利用Eclipse搭建动态Web应用;

13.利用ECharts进行前端可视化分析;

14.利用Spark MLlib进行回头客行为预测;

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

大数据应用技术课程实践--选题与实践方案_第1张图片

1.

  • 网站用户购物行为分析
  • 官网:http://dblab.xmu.edu.cn/post/7499/
  • 淘宝双11数据分析与预测
  • 官网:http://dblab.xmu.edu.cn/post/8116/
  • 电信用户行为分析
  • http://dblab.xmu.edu.cn/post/useranalysis/

 

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt

你可能感兴趣的:(大数据应用技术课程实践--选题与实践方案)