Hive 工作机制

Hive 简介

Hive 是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表,
并提供SQL查询功能,可将SQL语句转换为MapReduce任务进行。

优点:学习成本低、可以通过类SQL语句快速实现MapReduce统计。

Hive 工作机制

  1. 将清洗过的数据放入到HDFS中,就可以进行各种统计了
  2. Hive运行时,元数据信息存储在关系型数据库里面,如Mysql,derby。Hive中的元数据包括表的名字、表的列和分区及其属性,表的属性、表的数据所在目录等。
  3. Hive的数据存储在HDFS中,大部分的查询计算由MapReduce完成。
  4. 可以在Hive中建表
  5. 然后可使用SQL语句查询,每一个SQL语句都被HIve的语法解析器解析,组装成一个MapReduce程序,然后提交给yarn,运行完成后可以把结果输出出来,也可以把表写到其他表里。

与Hadoop的关系

Hive利用HDFS存储数据,利用MapReduce查询数据

你可能感兴趣的:(Hive)