Hive

Hive概述

    由于MapReduce 开发难度大,学习成本高, Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理 。因此使用MapReduce框架开发,项目周期长,成本高 。

    Hive是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件映射为一张表(类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计。

    Hive本质是:将 SQL 转换为 MapReduce 的任务进行运算 底层由HDFS来提供数据存储 可以将Hive理解为一个:将 SQL 转换为 MapReduce 任务的工具

Hive优缺点

优点:

学习成本低。Hive提供了类似SQL的查询语言,开发人员能快速上手;

处理海量数据。底层执行的是MapReduce 任务;

系统可以水平扩展。底层基于Hadoop;

功能可以扩展。Hive允许用户自定义函数;

良好的容错性。某个节点发生故障,HQL仍然可以正常完成;

统一的元数据管理。元数据包括:有哪些表、表有什么字段、字段是什么类型

缺点

HQL表达能力有限;

迭代计算无法表达;

Hive的执行效率不高(基于MR的执行引擎);

Hive自动生成的MapReduce作业,某些情况下不够智能;

Hive的调优困难;

你可能感兴趣的:(Hive)