大数据技术Hive详解

一、Hive 概述

1、Hive 简介

Hive:由Facebook开源用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。

本质是:将HQL转化成MapReduce程序。

大数据技术Hive详解_第1张图片

说明: 

  1. Hive处理的数据存储在HDFS;
  2. Hive分析数据底层的实现是MapReduce;
  3. 执行程序运行在Yarn上;

1. 分布式文件系统HDFS存储架构与原理

HDFS结构与架构:

大数据技术Hive详解_第2张图片

HDFS分布式文件系统架构:

大数据技术Hive详解_第3张图片

Namenode上保存着 HDFS 的名字空间。对于任何对文件系统元数据产生修改的操作, Namenode 都会使用一种称为 EditLog 的事务日志记录下来。

例如,在 HDFS 中创建一个文件, Namenode 就会在 Editlog 中插入一条记录来表示;同样地,修改文件的副本系数也将往 Editlog

你可能感兴趣的:(Hadoop,Hive,Spark,大数据安全,hive,大数据,hadoop)