大数据应用技术课程实践--选题与实践方案


  • 一、选题与意义

    Hadoop平台应用

    简要说明理由与意义。

    还要在十天左右做一个项目出来,只能选择hadoop了。

    二、实践方案

    简要说明理由。

    步骤零:实验环境准备

     所需知识储备  Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理
    训练技能 双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装
    任务清单  1. 安装Linux系统;2. 安装Hadoop;3. 安装MySQL;4. 安装HBase;5. 安装Hive;6. 安装Sqoop;7. 安装R;8. 安装Eclipse2

    步骤一:本地数据集上传到数据仓库Hive

     所需知识储备  Linux系统基本命令、Hadoop项目结构、分布式文件系统HDFS概念及其基本原理、数据仓库概念及其基本原理、数据仓库Hive概念及其基本原理
     训练技能  Hadoop的安装与基本操作、HDFS的基本操作、Linux的安装与基本操作、数据仓库Hive的安装与基本操作、基本的数据预处理方法
    任务清单  1. 安装Linux系统;2. 数据集下载与查看;3. 数据集预处理;4. 把数据集导入分布式文件系统HDFS中;5. 在数据仓库Hive上创建数据库

    步骤二:Hive数据分析

    所需知识储备 数据仓库Hive概念及其基本原理、SQL语句、数据库查询分析
    训练技能  数据仓库Hive基本操作、创建数据库和表、使用SQL语句进行查询分析
    任务清单 1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简单查询分析;4. 查询条数统计分析;5. 关键字条件查询分析;6. 根据用户行为分析;7. 用户实时查询分析

    步骤三:Hive、MySQL、HBase数据互导

    所需知识储备 数据仓库Hive概念与基本原理、关系数据库概念与基本原理、SQL语句、列族数据库HBase概念与基本原理
    训练技能  数据仓库Hive的基本操作、关系数据库MySQL的基本操作、Sqoop工具的使用方法、HBase API的Java编程、Eclipse开发工具使用方法
    任务清单  1. Hive预操作;2. 使用Sqoop将数据从Hive导入MySQL;3. 使用Sqoop将数据从MySQL导入HBase;4. 使用HBase Java API把数据从本地导入到HBase中

    步骤四:利用R进行数据可视化分析

    所需知识储备  数据可视化、R语言
    训练技能 利用R语言对MySQL数据库中的数据进行数据可视化分析、R的安装、相关可视化依赖包的安装与使用、各种可视化图表生成方法
    任务清单 安装R语言包、安装可视化依赖包、柱状图可视化分析、散点图可视化分析、地图可视化分析

    三、实践任务分解

    根据所选的题目,明确实验步骤,分解任务到每天。

     

     

    四、实践计划

    按任务分解撰写计划表,每天按计划表开展工作。

    第天根据实际情况更新计划表,有必要时调整。

    1. 安装Linux操作系统
    2. 安装关系型数据库MySQL
    3. 安装大数据处理框架Hadoop
    4. 安装列族数据库HBase
    5. 安装数据仓库Hive
    6. 安装Sqoop
    7. 安装R
    8. 安装Eclipse
    9. 对文本文件形式的原始数据集进行预处理
    10. 把文本文件的数据集导入到数据仓库Hive中
    11. 对数据仓库Hive中的数据进行查询分析
    12. 使用Sqoop将数据从Hive导入MySQL
    13. 使用Sqoop将数据从MySQL导入HBase
    14. 使用HBase Java API把数据从本地导入到HBase中
    15. 使用R对MySQL中的数据进行可视化分析

    28到29号安装

    1. 安装Linux操作系统
    2. 安装关系型数据库MySQL
    3. 安装大数据处理框架Hadoop
    4. 安装列族数据库HBase
    5. 安装数据仓库Hive
    6. 安装Sqoop
    7. 安装R
    8. 安装Eclipse

     30号

    本地数据集上传到数据仓库Hive

    31号

    Hive数据分析

    1号

    Hive、MySQL、HBase数据互导

    2号

     

     

你可能感兴趣的:(大数据应用技术课程实践--选题与实践方案)