Hive 学习大纲

学习内容:

  • 第一部分:Hive的环境搭建、基本操作、存储类型与复合数据类型
    主要介绍: Hive的安装、Hive的负载均衡搭建、Hive的访问方式、Hive的数据类型、Hive的CLI操作介绍;TextFile、Sequence 
    File、RCFile、Hive的自定输入格式、数据结构;Hive表的创建,内部表和外部表,表的分区,删除表,修改表,查询语句以及where语句
    实战:搭建hive环境;不同数据格式的存储,自定义输入格式并使用;使用不同方式创建内表、外表,新建表分区,编写查询语句
    收获内容:了解hive相关知识,学会搭建hive环境,了解元数据存储以及hive基本操作;学会使用hive不同数据存储格式,并学会如何自定义输入格式并在hive中使用;了解hive不同表之间的区别,学会对表的一些操作,了解hive分区,以及分区的操作

    第二部分:数据加载、修改表属性以及Hive高级查询语句
    主要介绍: Hive加载数据,hive导出数据,修改列属性,修改表的元数据,buckets;group by、Join、Order by、Sort by、distribute by、cluster by、Union all、索引和视图;
    实战:使用命令为表加载数据,查看、修改表属性
    收获内容:了解hive数据实际存储格式,使用不同手段为表加载数据,了解如何查看表的属性并对其进行修改,了解bucket与并使用;学习了解hive支持的高级查询,学会编写高级hql以及了解其底层实现原理。了解视图、索引使用的环境

    第三部分:Hive的内置函数、自定义UDF和UDAF实战
    主要介绍:正则表达式使用,比较常用的内置函数,UDF,UDAF;explain,队列设置,Join优化,本地模式和并行执行,设置Mapper和Reducer的个数,JVM重用,动态分区调整,推测执行,Hive的debug调试
    实战:学会正则表达式在hql中的使用,学习一些比较常用的内置函数,学会编写UDF、UDAF
    收获内容:内置函数使用,学会编写自定义UDF和UDAF

    第四部分Hive调优与安全,Hive原理与体系结构
    主要介绍:查看hive执行计划,进行hql优化,同时进行hive的优化;Hive的Hadoop安全的整合,使用Hive进行验证,Hive的权限管理,分区级别的权限,自动授权;了解
    Hive的基本原理,体系结构与编译执行流程
    实战:学会hive调优方法;进行用户、组、角色的权限管理
    收获内容:了解如何查看hive的执行计划,并根据执行计划优化hql,学会hive中一些优化方法;了解hive和Hadoop权限之间的关系,学会如何设置用户、组、角色的权限进行权限管理

    第五部分Hive的集成与案例实战
    主要介绍:日志处理实战,了解某公司的数据仓库集群架构
    实战:进行日志分析处理工作,搭建自己的数据仓库架构
    收获内容:学习目前日志分析的常规工作,了解企业现有的一些架构,并搭建数据仓库


你可能感兴趣的:(Hive)