数据湖(Data Lake)前世今生解析(上)

EMC收购视频存储设备厂商Isilon Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资、大数据和HPC场景得到客户的一致认可,也在去年和另外一个产品线Povital Hadoop推出了数据湖解决方案,应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需求。

在讲数据湖之前,我们一起在回顾下数据库和数据仓库。数据库指在线交易数据系统、一般指OLTP事务处理,数据库中的数据也是进行了分类的;数据仓库一般指通过ETL工具抽取分类中的离线数据,主要用作进行后续分析、或进一步分类为数据集市。


数据湖

数据湖是指结构化和非结构化大数据系统,由于这些数据再初始很难定义其用途,所以在使用前很难将其有效分类,但是这些数据又可以被原地分析、计算和存储的系统。数据湖也改变了用户使用数据的方式,数据湖整合了结构化、非结构化数据的分析和存储,用户不必为海量不同的数据构建不同数据库、数据仓库,因为通过数据湖就可以完成或实现不同数据仓库的功能。未来数据湖作为一种云服务随时按需满足对不同数据的分析、处理和存储需求,数据湖本身也是通过云的方式来部署到虚拟机、物理环境或云上。


640?wx_fmt=png&wxfrom=5&wx_lazy=1

Isilon的数据湖基础

Scale out横向扩展能力提供了构建数据湖的关键能力,满足海量数据存储需要;同时isilon存储(HDFS)与计算(Hadoop)分开部署,满足计算按需扩展需求。

通过OneFS系统引擎提供丰富的软件特性如 SmartPool、SmartDedupe、多副本(EC)等实现数据流动、空间高效利用和数据可靠性;并实现和VMware虚拟化平台VAAI、VASA和SRM无缝集成,实现数据湖数据在虚拟和物理环境间进行高效数据流动。

支持丰富的多种访问协议接口如:CIFS、NFS、NDMP、Swift消除了数据孤岛,在一套存储中实现不同数据存储和共享。

640?wx_fmt=png&wxfrom=5&wx_lazy=1


通过HDFS实现和不同数据服务平台对接,目前已经支持多个版本Hadoop计算平台,如Pivotal、Cloudera、HortonWorks和Apache Hadoop等。

640?wx_fmt=png&wxfrom=5&wx_lazy=1


Isilon和Pivotal数据湖方案

Greenplum是EMC收购的一家专注数据库领域的公司,主要包括Share Nothing MPP数据库 Greenplum Database,支持和HDFS和OneFS对接的Greenplum Hadoop,Greenplum DCA一体机, 结合虚拟机实现多租户的数据仓库Greenplum Chorus和Greenplum Analytics 分析咨询服务。EMC提供了由GemFire/SQLFire实时计算和GreenPlum DB组成的传统独立大数据计算方案。
Pivotal产品线为了迎合非结构化大数据的需求,提供Greenplum( HAWQ )和hadoop集成提供更强大处理能力的大数据方案。通过DBMS嫁接到Hadoop,使得Hadoop具备结构化数据能力,通过gNet并行数据流引擎提升并行能力、流水化能力,在执行查询等操作时协调相关节点间业务流,移动数据,收集结果等。
Pivotal HD大数据方案由GemFire XD( 由GemFire/ SQLFire发展而来 )+HAWQ( 由Greenplum DB发展而来)+ Pivotal HD引擎+Spring XD(分布式数据、数据导入、批处理、数据导出和流式处理)等组建组成。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

Pivotal HD基于Apache Hadoop优化构建而成,为数据湖方案提供了数据处理能力。通过Job Tracker调度并行任务,并由Task Tracker有效完成计算任务、返回计算结果。计算的中间值和结果实现HDFS本地保存。Pivotal HD通过HAWQ和GemFile XD也提供了结构化处理能力和实时数据处理能力。

640?wx_fmt=png&wxfrom=5&wx_lazy=1


Isilon提供了HDFS存储接口实现和Pivotal HD对接,通过Name Node和Data Node实现数据存储和高效读取,解决海量数据扩展;同时可以通过Isilon OneFS提供的丰富软件特性和多副本(EC算法)提高数据湖的可靠性。

640?wx_fmt=png&wxfrom=5&wx_lazy=1




温馨提示:

请搜索“ICT_Architect”关注公众号,获取更多精彩内容。


本文出自 “ICT架构师技术交流” 博客,谢绝转载!

你可能感兴趣的:(Data,EMC,Lake,pivotal,Isilon,数据湖)