HIVE学习记录-基本概念

相关概念

数据仓库概念 Data Warehouse(DW):用于储存分析的数据系统,面向数据分析(辅助决策)。数据仓库本身不生产数据,也不消费任何数据,只是用来储存,管理数据。

数据仓库特征:

  • 面向主题:所有的操作都围绕分析主题进行。
  • 集成性:根据分析主题将分散在各处操作系统中的数据(这些数据是分散、独立、异构的)抽取(ETL),清理,转换,汇总。
  • 非易失性、非异变性:分析数据中的规律,而不对原始数据做出改变(通俗说就是查询操作多,修改操作少)。
  • 时变性:数据仓库的数据随着时间的变化而更新,适应决策需要。

并不是取代数据库,而是一个专业的、集成的数据分析平台。
OLTP: On-Line Transaction Processing 联机事务处理
比如关系型数据库(SQL),为了捕获数据产生的
OLAP: On-Line Analytical Processing 联机分析处理
比如HIVE,数据分析,为了分析数据产生的
HIVE学习记录-基本概念_第1张图片
数据集市概念: 面向单个部门,数据仓库的子集,面向单个部门。

数据仓库分层架构
HIVE学习记录-基本概念_第2张图片
分层好处

  • 清晰数据结构:每一个分层都有自己的作用域
  • 数据血缘追踪:当一个数据出了问题,能够快速定位到问题来源
  • 减少重复开发:比如一些通用的中间层数据
  • 复杂问题简单化:复杂的问题分层分布执行
  • 屏蔽原始数据的异常:相当于将数据抽象出来(提供了统一的接口),屏蔽了下层的具体细节。

ETL、ELT概念:
E:Extra(抽取)
T:Transfer(转化)
L:Load(装载)
ETL与ELT的区别就在于各个动作执行的顺序不同。
HIVE学习记录-基本概念_第3张图片
HIVE学习记录-基本概念_第4张图片

HIVE: 建立在Hadoop之上的开源数据仓库系统,数据存储基于HDFS
核心: 将HQL转换为MapReduce程序并交由Hadoop程序执行
HIVE相对Hadoop的优势: 易于上手、学习开发成本低、提高开发效率,可以让用户专注于编写HQL,将简单的HQL语句转化为复杂的MapReduce在HDFS文件系统上执行。
HIVE能将数据文件映射成一张表,这个映射是指什么?
映射信息:元数据信息(metadata)用来描述数据的数据,包括:

  • 表对应的那个文件(位置信息)
  • 表的列对应文件的哪个字段(顺序信息)
  • 文件字段之间的分隔符是什么

HIVE软件本身承担了什么功能职责?
SQL的语法解析,编译成为MapReduce程序
HIVE学习记录-基本概念_第5张图片
HIVE学习记录-基本概念_第6张图片
本博客为黑马程序员HIVE的学习笔记,本节对应视频P0-P12
链接:
【黑马程序员Hive全套教程,大数据Hive3.x数仓开发精讲到企业级实战应用】
https://www.bilibili.com/video/BV1L5411u7ae/?p=13&share_source=copy_web&vd_source=49b468d924b244c4625ec7da1ec04633

你可能感兴趣的:(大数据,HIVE,hive,学习,数据仓库)