数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,并且时至今日依然伴随着不少的争议。“数据湖”的百度百科词条创建于15年的10月份,在国内网络上的资料也仅仅是从2014年底才开始大规模集中出现,在国内,它还是一个相对年轻的概念。
根据定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。
如何构建、维护和挖掘Hadoop数据湖的价值
Hadoop以及其它大数据应用框架,例如Spark,是围绕以下的理论来设计和建立的:分布式并行计算技术和存储穿过网络行程的最小化是在海量数据情况下,能获得最佳数据查询和处理性能的关键因素。这一理论约束了大数据基础设施的结构和部署。自从Hadoop诞生以来,它就认为要发挥该框架性能,就必须采用将存储和计算进行托管(co-location)的架构。Hadoop是一门了不起的技术。过去各式各样的数据分析成本极高,昂贵的专用软件和硬件组合作为工程数据仓库系统(Engineering Data Warehouse Systern),才有可能完成这一复杂的工作。而现如今各种类型、各类规模的机构只要通过在商用硬件集群部署免费开源软件,就能做到这一点。
Hadoop早期案例鼓吹在低成本和敏捷性上大获成功。但是随着越来越多的主流用例出现,各大机构发现在企业级数据仓库时代,管理和控制仍然不可或缺。数据湖俨然已经成为企业级数据仓库与数据转储之间的中间地带,其提供系统依然敏捷灵活,而其所拥有的保障和审计功能也对于业务关键型数据是必不可少的。
综合的数据湖解决方案,譬如Bedrock和Mica加强了必要的可控性,而Hadoop依旧快速敏捷,较以往方案有很大的提升。即使在敏感行业,如卫生保健、金融服务及零售行业,这些用例也如雨后春笋般不断增加。
企业也在展望未来。他们看到,真正有价值的数据湖不能仅仅是一个储舱,它必须是企业的多个平台之一,拥有着精心构造的现代化的端到端数据架构。就像从企业级的的角度来看待元数据一样,必须能够集成数据湖与外部工具(企业级数据视图的一部分)。只有这样才能建立一个开放的、可扩展的数据湖,并且很容易就能将其集成到其他关键业务平台上。
如果你的企业准备建一个数据湖,那么下面是这份清单,可以帮助你了解都需要做哪些事情,以此确保可以通过灵活的方式把控整个项目的运作。
业务优先级列表
一个数据湖项目的开展,必须与业务强强相关。毕竟,数据湖需要为业务带来企业级数据仓库无法提供的价值。它的价值可能是解决痛点,或者是为业务团队带来全新的收入来源。能够从业务的角度去定义和表达价值,并说服伙伴加入,这对取得成功非常重要。
建筑监督
一旦确定了数据湖与业务的一致性,而且也知道重点在哪儿,就需要定义前期架构:需要哪些不同的组件,最终的技术平台将会是什么样子?请记住,这是一项长期投资,所以需要仔细把握技术的导向。当然,以上问题,你心中可能并没有找到所有答案。
所以可能有必要验证一下概念,从而得到一些经验,在此过程中不断调整和学习。建筑计划中特别重要一点就是拥有很好的数据管理策略,包括数据治理和元数据,以及如何做好这几点。如果想建立一个可管理和控制的数据湖,而非饱受诟病的“数据沼泽”,这一点是至关重要的。
安全策略
概述一个强有力的安全战略,特别是当数据湖将是一个共享平台,由多个业务线或者内部和外部利益相关者共同使用。数据隐私和安全至关重要,尤其是受保护的个人健康信息(PHI)和个人身份信息(PII)等敏感数据。同时,还必须考虑多租户的使用情况:某些用户可能无法与其他用户共享数据。如果你提供多个外部观众服务,每个客户可能和你签订了单独的数据协议,你需要尊重他们。
I / O和内存模型
作为技术平台和体系结构的一部分,必须考虑数据湖的扩展功能。例如,是否打算在存储和计算层之间使用解耦?很多企业已经在坚持使用Azure或S3存储数据,但都是当数据存储完毕后才停止集群的动态切换。如果你计划来执行这样的操作,你需要从数据摄入的角度彻底理解吞吐量需求,这将决定为存储和网络吞吐量以及数据是否可以得到及时处理。
员工技能评估
任何数据湖项目要想获得成功,必须有正确的人。专家应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验,这样他们就可以预先明确策略和项目流程。还需要邀请日后会使用这一数据湖的数据科学家们,并将其作为利益相关者参与到早期的建筑过程中去,听取他们的需求,了解他们更愿意怎样与数据湖交互。
行动计划
考虑数据湖从服务水平协议(SLA)的角度来看:哪些需求是需要去满足你的业务利益相关者的,特别是他们对影响收益的业务关键型应用程序这一部分有什么要求?需要从几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议。话题还是回到了人和技能点上,关键是需要有合适的人,他有着管理这些环境的经验,能够整合一个行动小组来支持服务水平协议,满足业务需求。
沟通计划
一旦数据湖平台搭建完成,就如何考虑如何做广告宣传、拓展用户?需要找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例,毕竟任何平台最终的成功都表现在其商务上的成功。
灾备计划
由于数据湖业务的关键性,同时与不同的用户组有不同的服务等级协议,为了保证其关键性能,需要一个能支持这一切的灾备计划。
五年愿景
鉴于数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略。我们看到,各大组织机构为了在分析自身数据时更加高效,产生更多及时的见解,正在用数据湖接管企业级数据仓库组织。组织机构必须意识到数据湖最终将成为数据存储的集合体,包括HDFS、 NOSQL、Graph DBs。他们最终也将支持实时数据处理和生成流媒体分析,也就是说,不仅以流的方式汇总数据,还能作为机器学习模型,当数据输入时在线分析数据,以监督或无监督的方式生成自己的见解。部署选项也会增加。对于不想将数据上传至公有云的公司,他们可以利用公共云模式在他自己的环境中构建私有云。在这些所有的参数中,企业需要有一个非常健壮的功能集,从而摄取和管理数据,存储和组织数据,准备和分析数据,保证数据安全,并控制它。无论你选择什么底层平台,流、批处理、对象存储、flash、内存亦或是文件,在数据湖未来几年的发展中,都需要一直提供这一强大的功能集,这一点至关重要。
作者:Alice LaPlante, Ben Sharma
翻译:张洁 程权
原文链接:https://www.oreilly.com/ideas/best-practices-for-data-lakes
本文由英方股份供稿