大数据原理与技术(八):数据仓库Hive

Hive是基于Hadoop的数据仓库软件,可与将结构化的数据文件映射为数据库表,并提供类SQL查询功能。Hive将SQL语句转化成MapReduce任务进行处理,适用于大型分布式数据集的查询管理。

文章目录

    • 一、Hive概述
      • 1.Hive简介和应用
      • 2.Hive的特性
      • 3.传统数据仓库面临的挑战
      • 4.Hive与传统数据仓库的区别
    • 二、Hive的架构和数据存储
      • 1.Hive的架构原理
      • 2.Hive的存储模型
    • 总结

一、Hive概述

1.Hive简介和应用

(1)Hive是什么
Hive是基于Hadoop的数据仓库软件,某种程度上可以看作是用户编程接口,本身不存储和处理数据,可以用来进行数据提取转化加载(ETL),在Hadoop中存储、查询和分析大规模数据,依赖分布式文件系统HDFS存储数据,依赖分布式并行计算模型MapReduce处理数据,Hive还定义了类SQL查询语言——HiveQL,提供类SQL的查询功能。

你可能感兴趣的:(笔记,hive,大数据)