大数据之Hive知识点总结(一)

大数据之Hive知识点总结(一)

1、数据仓库,英文名称:Data Warehouse,简写DW或DWH,数据仓库是构建面向分析的集成化数据环境,为企业提供决策支持,出于分析性报告和决策性支持目的而创建,数据仓库本身并不“生产”任何数据,同时自身不需要“消费”任何数据,数据来源于外部,并且开放给外部应用。

2、数据仓库的主要特征:数据仓库是面向主题、集成、非易失和时变的数据集合,用以支持管理决策。
面向主题:传统数据库,面向应用进行数据组织,各个业务系统可能是相互分离的,数据仓库则是面向主题的,基于主题组织的数据层次不同,他们被划分为各自的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据的进行完整、一致和准确性的描述。
集成性:通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库的内的数据关于整个企业的一致性。在数据进入数据仓库之前,必然要经过同意与综合,其一,要统一源数据中所有的矛盾之处,如字段的同名异义、异名同义,单位不统一,字长不一致;其二,进行数据综合和计算。
非易失性:操作型数据库主要服务于日常的业务操作,使数据库需要不断地对数据实时更新,以便迅速获得当前最新数据,不至于影响正常的业务运作。
时变性:数据仓库包含各种粒度的历史数据。数据仓库建设是一个项目,更是一个过程,数据仓库的数据数据时限一般要远远常与操作型数据的数据时限,操作型系统的存储的是当前的数据,而数据仓库中的数据是历史数据,数据仓库中的数据是按照时间顺序追加的,他们都带有时间属性。
3、数据仓库与数据库的区别:
数据库是OLTP,而数据仓库是OLAP。操作型处理,叫联机事物处理OLTP,也可以称为面向交易的处理系统,他是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。传统数据库系统作为数据管理的主要手段,主要用于操作性处理。分析性处理,叫做联机分析处理OLAP,一般针对某些主题的历史数据进行分析,支持管理决策。
·数据库是面向事物的设计,数据仓库是面向主题的设计
·数据库一般存储业务数据,数据仓库存储历史数据
·数据库避免冗余,数据仓库有意引入冗余。
·数据库是为捕获数据设计,数据仓库是为分析数据而设计

4、数据仓库分层架构
按照数据流入流出的过程,数据仓库架构可分为-------源数据、数据仓库、数据应用

数据仓库的数据来源不同的源数据,提供多样的数据应用数据自下而上流入数据仓库后向上层开发应用,而数据仓库只是中间集成化数据管理的一个平台。
·源数据层(ODS):此层数据无任何更改,之间沿用外围系统数据结构和数据,不对外开放,为临时存储层,是接口数据的零时存储区域,为后一步的数据处理做准备。
·数据仓库层(DW):也叫细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
·数据应用层(DA或APP):前端应用直接读取的数据源,根据报表,专题分析需求而计算生成的数据。
数据仓库从各数据源获取数据集在数据仓库内的数据转换和流动都可以认为是ETL(抽取)Extra、Transfer(转化)、Load(装载)的过程,ETL是数据仓库的流水线数据仓库日常的管理和维和工作的大部分精力就是保持ETL的正常和稳定。
5、为什么要对数据仓库分层:
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库存在大量冗余度。
通过数据分层管理可以简化数据清洗过程,把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成多个简单的工作。

6、数据仓库元数据管理:
元数据(Meta Date)主要记录数据仓库中模型的定义、各层级见得映射关系,监控数据仓库的数据状态及ETL的任务运行状态。
元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库的构建的整个过程,直接影响着数据仓库的构建、使用和维护。
元数据可以分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的 IT 人员
使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、
数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位
置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
7、Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive可以理解为将SQL转换为MapReduce的任务工具,甚至更近一部可以说hive就是一个MapReduce的客户端。

8、为什么使用Hive:操作借口采用类SQL语法,提供快速开发的能力;避免了去写MapReduce,减少开发人员的学习成本;功能扩展方便。

9、Hive的特点:
可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
容错:良好的容错性,节点出现SQL仍可完成执行。
点个关注不迷路
》》》》》》》》》》》》》》更新中《《《《《《《《《《《《《《

你可能感兴趣的:(大数据,hive)