Hadoop实践(零)---Hadoop作为数据湖

在研究Hadoop如何护理大数据之前,必须首先了解现代数据存储系统如何运作。

大数据的功能之一,是用于所有数据的中央存储库。

一些数据可能不适于存储在关系数据库中,大部分数据将需要按照原始形式存储

这一特性是Hadoop数据处理与更传统的方法的区别所在。

这个想法通常被称为“数据湖”是为所有的原始数据创建一个巨大的存储库,并根据需要使用它。

将这种方法与传统的关系数据库或数据仓库对比。

  1. 向数据库中添加数据的前提是先把数据转变成一个可以加载到数据库的预定的模式。这一步骤通常被称为提取、转换和加载(ETL),并且在可以使用数据之前,也会消耗时间和成本。最重要的是关于数据如何使用的决定必须在ETL步骤中间做出。此外,一些数据经常在ETL中被丢失,因为它不能放入数据模式或被认为是不需要的。

  2. Hadoop的重点是按照其原始格式使用数据。本质上,当数据由Hadoop应用程序访问时(看起来就像是执行ETL步骤)。这种方法,称为读时模式(schema on read),使程序员和用户在访问数据时,改变结构来满足自己的需求。传统的数据仓库方法,称为写时模式(schema on write),这需要更多的预先设计并对最终使用数据的方式进行更多的假设。

如前所述,对大数据而言,相比更为传统的方法,数据湖提供了如下三个优势:

  • 全部数据都保持可用,无需对未来的数据使用作出任何假设
  • 全部数据都是共享的,多个业务单元或研究人员可以使用所有可用的数据,以前由于其中有些数据分布在完全不同的系统上,是不可用的。
  • 全部访问方法都是可用的。任何处理引擎都可以用来检查数据(例如,MR、Spark、图形处理)

TIPs:Hadoop并不一定能代替数据仓库,数据仓库是最有价值的业务工具,然而,传统的数据仓库技术是在数据湖开始如此快速地蔓延之前研制出来的。增长的新数据流来源各异,包括社交媒体、点击追踪记录、传感器数据,以及其他来源的数据,这些都增加了数据湖的流入。

Hadoop实践(零)---Hadoop作为数据湖_第1张图片

你可能感兴趣的:(Hadoop,HDFS,Hadoop实践,hadoop,大数据,数据)