现代数据栈MDS的主要特征

Dazdata MDS

1. 云优先

2. 围绕云数据仓库/湖构建

3. 专注于解决一个问题

4. 以 SaaS 或开放核心形式提供

5. 低进入门槛

6. 社区积极支持

1. 云优先

现代公有云供应商使 MDS 工具变得具有高度弹性和可扩展性。这使组织可以轻松地将它们集成到其现有的云基础架构中。

2. 围绕云数据仓库/湖构建

现代数据堆栈工具认识到,中央云数据仓库/湖是数据分析的动力。因此,它们旨在与所有著名的云数据仓库(如Redshift,Bigquery,Snowflake,Databricks等)无缝集成,并充分利用其功能。

3. 专注于解决一个具体问题

现代数据堆栈是由数据管道的不同阶段连接的工具拼凑而成的。每个工具都专注于数据处理/管理的一个特定方面。这使得现代数据堆栈工具能够适应各种架构,并插入任何现有堆栈,只需很少或无需更改。

4. 以 SaaS 或开放核心形式提供

现代数据堆栈工具主要以SaaS(软件即服务)的形式提供。在某些情况下,核心组件是开源的,并带有付费附加功能,如端到端托管和专业支持。

5. 进入门槛低

现代数据堆栈工具打包在简单的即用即付和基于使用情况的定价模型中。数据从业者可以在做出重大承诺之前探索新工具及其功能和实用性。这样可以节省金钱和时间。

此外,MDS 工具被设计为<a href="https://venturebeat.com/2021/02/14/no-code-low-code-why-you-should-be-paying-attention/">低代码甚至无代码。工具设置可以在几个小时内完成,不需要大量的技术专业知识或时间投入。

6. 得到社区的积极支持

现代数据堆栈解决方案提供商在社区建设上投入了大量时间和精力。有 Slack 小组、聚会和会议,积极支持工具用户和数据从业者。这促进了围绕这些工具的支持性和创造性生态系统。


是什么导致了现代数据栈MDS的出现?

Hadoop和公共云的出现

亚马逊Redshift的推出

对更好工具的需求不断增长

Hadoop和公共云的出现

在Hadoop之前,只能垂直扩展基础设施。因此,数据处理需要大量的前期投资。 然后Hadoop出现了,使得在廉价硬件上水平扩展存储和计算成为可能。但即使在那之后,用户体验也很笨拙(map-reduce),只有大型组织才能投资于使其正常工作所需的特殊技能。但是,当公共云变得便宜且易于访问时,即使是较小的公司也可以负担得起云上的存储和计算。

亚马逊Redshift的推出

同时,微服务架构已经普及了NoSQL和非关系数据库。当加载到 Hadoop 集群进行分析时,这些非关系数据很难使用 SQL 进行处理。这迫使数据团队使用其他编程语言(如Java,Scala和Python)来处理数据。组织开始依赖昂贵的工程资源和高度专业化的技能。 数据民主受到了打击。

亚马逊的Redshift改变了这一切。

Redshift于2012年推出,是第一个云数据仓库。它不仅允许将大量数据存储在水平可扩展的基础架构上,而且还可以使用纯SQL查询数据。

对更好工具的需求不断增长

在接下来的几年中,数据仓库解决方案提供商能够进一步改进架构,分离存储和计算,并提供更好的价格点和可扩展性。但是,转换、建模、清理数据并将其转换为可操作的见解仍然繁琐且容易出错。

快速增长的企业对大型基础设施投资所获得的回报感到不满。他们的数据在数量、种类和复杂性方面都有所增长,但生态系统仍然没有能够很好地管理它的工具。

隐私也已成为一个严肃的问题,全球各国政府都希望保护其公民免受过度数字化信息系统的影响。这导致了严格的监管框架,如欧盟的GDPR和加利福尼亚州的CCPA。

随着分析数据平台的基本构建块的成熟和稳定,更好的数据管理和可观察性变得非常重要。开发一套更好的工具来应对这些挑战是肥沃的土壤。投资者和企业家开始感兴趣,现代数据堆栈成为关注和创新的焦点。


现代数据平台的基本组成部分是什么?

若要了解特定 MDS 工具的优点并做出正确的工具选择,首先了解数据平台的各个组件以及为每个组件提供服务的工具的通用功能非常有用。

数据平台的基本组件(在数据流方向上)是:

数据收集和跟踪

数据摄取

数据转换

数据存储(数据仓库/湖)

指标运算层

商业智能工具BI

反向ETL数据服务

业务流程(工作流引擎)

数据管理、质量和治理

数据收集和跟踪

这包括从客户端应用程序(移动、Web、IoT 设备)收集行为数据的过程,以及从后端服务收集事务数据的过程。

该领域的MDS工具侧重于减少由于设计不当,实施不正确,遗漏或延迟跟踪数据而引起的质量问题。

MDS 数据收集和跟踪工具的常见功能

事件架构设计接口

协作和同行评审的工作流程

将事件架构与堆栈的其余部分集成

根据事件架构自动生成跟踪 SDK

根据架构验证事件


数据摄取

引入是一种将原始数据从其真实来源提取并加载到中央数据仓库/湖的机制。

现代数据生态系统具有管道,可将来自数百个第一方和第三方来源的原始数据引入仓库。需要不断布局新的引入管道,以满足不断增长的业务需求。

MDS 数据摄取工具旨在减少样板文件、提高工作效率并确保数据质量。

MDS 数据引入工具的常见功能

可配置框架

即插即用连接器,适用于众所周知的数据格式和来源

适用于热门存储目的地的即插即用集成

根据引入的数据进行质量检查

引入管道的监视和警报

数据转换

转换是对原始数据进行清理、规范化、筛选、联接、建模和汇总以使其更易于理解和查询的过程。在 ELT 体系结构中,转换在数据引入后立即发生。

MDS 数据转换工具专注于减少样板文件,提供支持一致数据模型设计的框架,促进代码重用和可测试性。

MDS 数据转换工具的常见功能

对软件工程最佳实践的强大支持,如版本控制、测试、CI/CD 和代码可重用性

支持常见的转换模式,如幂等性、快照和增量

自动生成文档

与其它工具集成

数据存储(数据仓库/湖)

数据仓库/湖是现代数据平台的核心。它充当组织所有行为和交易数据的历史记录。

MDS 数据存储系统专注于提供无服务器自动缩放、闪电般的性能、规模经济、更好的数据治理和高开发人员生产力。

MDS 数据仓库/湖的通用功能

重负载期间自动缩放

支持开放数据格式,如Parquet,ORC和Avro

强大的安全性和访问控制

数据治理功能,例如管理个人身份信息

支持批量和实时数据引入

丰富的信息架构

指标运算层

指标运算层位于数据模型和 BI 工具之间,允许数据团队以声明方式定义不同维度的指标。它提供了一个 API,用于将指标计算请求转换为 SQL 查询,并针对数据仓库运行它们。

指标层有助于实现一致的报告,尤其是在指标定义和计算逻辑往往在不同部门之间存在差异的大型组织中。

MDS 指标工具的常见功能

指标的声明性定义

指标定义的版本控制

用于查询指标的 API

与流行的 BI 工具集成

针对低延迟的性能优化

商业智能工具

BI 工具是数据使用者用来了解数据并支持组织中业务决策的分析、报告和仪表板工具。

MDS BI 工具专注于通过使组织中的任何人都可以轻松快速分析数据并构建功能丰富的报告来实现数据民主。

MDS BI 工具的常见功能

低代码或无代码

针对特定用例(如地理空间数据)的数据可视化

内置指标定义层

与数据堆栈中的其他工具集成

嵌入式协作和文档功能

反向ETL

反向 ETL 是将转换后的数据从数据仓库移动到下游系统(如运营、财务、营销、CRM、销售,甚至回产品)的过程,以促进运营决策。

反向 ETL 工具类似于 MDS 数据引入工具,不同之处在于数据流的方向是相反的(数据仓库下游系统)。

反向 ETL 工具的常见功能

可配置框架

即插即用连接器,适用于众所周知的数据格式和目标

流行数据源的即插即用集成

针对流出数据进行质量检查

数据管道的监视和警报

业务流程(工作流引擎)

业务流程系统需要按计划运行数据管道、按需请求/放弃基础结构资源、对故障做出反应以及从通用接口管理数据管道之间的依赖关系。

MDS 编排工具专注于提供工作流计划的端到端管理、对复杂工作流依赖关系的广泛支持以及与 Kubernetes 等现代基础架构组件的无缝集成。

MDS 编排工具的常见功能

工作流的声明性定义

复杂的调度

回填、重新运行和临时运行

与数据堆栈中的其他工具集成

模块化和可扩展设计

适用于流行云和基础架构服务的插件

数据管理、质量和治理

数据治理是一个总称,包括通过有效收集和利用元数据来管理数据质量、沿袭、发现、编目、信息安全和数据隐私。

MDS 数据治理工具专注于实现高度的透明度、协作和数据民主。

MDS 数据治理工具的常见功能

与数据堆栈中的其他工具集成

在整个组织中搜索和发现数据资产

观察运动和静止的数据,以确保数据质量

数据沿袭的可视化

数据文档的众包

协作和共享

监控和警报数据安全和隐私不合规

跨现代数据堆栈的数据目录和治理

如何开始使用现代数据堆栈?

鉴于生态系统中有大量可用的工具选择,为您的业务需求选择合适的 MDS 工具可能是一项艰巨的任务。

本部分重点介绍一些重要注意事项,以帮助你根据数据团队的需求做出正确的选择。

如何评估现代数据堆栈中的工具

1. 你真的需要这个工具吗?

2. 该工具是否与您现有的基础架构无缝集成?

3. 您是否具备必要的技术技能?

4. 多少钱?

5. 设置/载入需要付出什么努力?

6. 有哪些托管选项?

7. 该工具是否可扩展?

8. 该工具将如何影响您当前的云基础架构?

9. 您是否可以轻松访问原始数据?

10. 需要什么样的数据隐私和访问控制?

11. 是否有用于扩展性的开放 API?

12. 工具界面是否易于使用和直观?

13. 该工具是否与您的项目管理和协作平台配合良好?

14. 源代码是开放的还是专有的?

15. 该工具是否得到了提供商和社区的良好支持?

16. 解决方案提供商公司是否有足够的资金?

17. 刀具占地面积是多少?

现在,让我们仔细讨论每个问题

你真的需要这个工具吗?

尽管大多数MDS工具都很经济且易于设置,但仍然值得问问自己是否真的需要该工具。如果您的数据占用空间可以忽略不计,并且您的团队规模较小,那么如果没有额外的工具开销,您可能会更好。

该工具是否与您现有的基础架构无缝集成?

理想情况下,您应该选择一个适合您现有基础架构和数据架构的工具。如果您的组织已经拥有成熟的设置,则工具迁移的成本可能很高。购买适合您现有基础架构的工具或至少注意权衡,将为您的数据团队节省大量时间和精力。

您是否具备必要的技术技能?

从长远来看,您的团队是否具备管理、维护或扩展工具的技能?即使没有代码 MDS 工具,配置和微调也可能需要一些编码技能和工作。

多少钱?

在做出选择之前,请浏览定价层。从包含最基本功能的最低层开始,并根据需要进行扩展,这是很有意义的。

考虑基础架构/云成本 - 它们可能并不总是包含在定价中。

寻找隐性成本。始终让您的法律和财务团队参与所有定价谈判。

设置和载入需要付出什么努力?

评估安装和载入所需的工作量。考虑迁移工作、用户培训和对其他团队的依赖关系(如果有)。

有哪些托管选项?

您的基础架构和安全团队可能会要求将该工具托管在本地或云中。检查这是否受支持,以及是否需要额外的成本/工作量。

该工具是否可扩展?

验证该工具是否可以纵向扩展,以满足未来 3 到 5 年内在用户数量、存储和计算等方面的增长需求。

该工具将如何影响您当前的云基础架构?

如果该工具设置为使用现有云资源,则可能会影响其性能和可用性。在规划基础结构要求时,需要考虑到这一点。

您是否可以轻松访问原始数据?

您的原始数据位于何处?该工具是否将其存储在您自己的云中?还是将其存储在工具的内部存储中?如果是这样,您是否可以轻松访问它?此外,您是否能够以标准文件格式或通过 API 轻松地将原始数据导入您自己的仓库?这些是重要的注意事项,尤其是在您的组织处理敏感数据或需要遵守严格的数据法律时。

需要什么样的数据隐私和访问控制?

该工具是否支持 SSO 提供程序或需要单独的凭据?

数据是否在动态和静态中加密?

该工具支持哪些访问控制策略,它如何遵守 GDPR 等监管框架?

是否有用于扩展性的开放 API?

值得检查该工具是否具有 API 来帮助您在需要时扩展其功能。

工具界面是否易于使用且直观?

用户体验不佳的工具不会轻易被采用。请务必确定目标受众的用户体验期望,以及该工具是否可以匹配他们。此外,请注意开发人员体验,以最大程度地减少对使用的阻力和降低的生产力。

该工具是否与您的项目管理和协作平台配合良好?

您选择的工具应与 Jira、Confluence、Slack 和 Email 等项目管理和协作平台很好地集成,以支持全球分布式团队的日常任务。

源代码是开放的还是专有的?

在这两种情况下,都必须通过定期发布新版本、升级和错误修复来主动维护软件。

但是,如果该工具是开源的,则必须具有足够宽松的许可,并且使用您的团队可以使用其当前专业知识支持的语言编写。

该工具是否得到了提供商和社区的良好支持?

确保您选择的工具有广泛的文档和可靠的社区支持。此外,请确保工具提供商可以在必要时提供高质量的技术支持。

解决方案提供商公司是否有足够的资金?

现代数据生态系统中每天都有新工具出现。因此,重要的是要知道您选择的工具的解决方案提供商公司是否得到了强有力的领导和充足的资金支持。当您对满足您要求但尚未在社区中广泛采用的工具感兴趣时,这一点尤其重要。

工具占地面积是多少?

如果您选择占用空间较大的工具,则需要进行彻底的研究,以确保不必过早更换它。占用空间较大的工具更难更换,因为它们在数据平台中的范围更大。

现代数据堆栈的未来

现代数据堆栈工具成倍地提高了数据从业者的工作效率。正因为如此,团队已经准备好并愿意考虑解决更复杂的数据问题。数据网格、BI、流处理和数据操作化等新实践已成为进一步创新的沃土。

与此同时,新兴的 MDS 工具不断突破数据存储、处理、分析和管理的界限。看看现代数据堆栈将如何进一步发展以解决数据中的下一个复杂程度,这将是一件有趣的事情。

你可能感兴趣的:(大数据,MDS现代数据栈,数据分析)