Dazdata MDS
现代数据堆栈(MDS)已经普及了几年,但直到最近才在其定义上趋同。在我们深入探讨MDS的哲学和技术指标之前,让我们先谈谈传统数据堆栈的失败。
为什么MDS越来越受欢迎?
原因很简单,传统数据堆栈 (TDS) 无法满足任何现代组织的数据需求。为了保持竞争优势,组织需要能够在正确的时间采取行动的数据,并且足够灵活地适应变化。TDS通常是指逻辑耦合且复杂的本地Hadoop(生态系统)和SQL仓库。
在我们深入研究什么是现代数据堆栈(MDS)之前,让我们首先看一下仍在使用 TDS 的组织面临的一些问题。
典型的 TDS 设置会导致三个主要问题
1. 解开和建立基础设施的周转时间长
2. 对新信息反应迟钝
3. 昂贵的洞察之旅
看到业务环境的竞争激烈以及快速适应新信息的需求,很明显,传统的数据堆栈并不是理想的解决方案。这就是现代数据堆栈的用武之地,可帮助您的企业保持竞争力。
现代数据堆栈有哪些优势?
1. 从以 IT 为中心 IT 转向以业务为中心的运营模式
2. 即插即用的灵活性取代了长期承诺
3. 从一次性分析转向运营 BI 和 AI
4. 将数据治理视为一等公民
很简单,现代数据堆栈 (MDS) 是一组托管在云中的工具,使组织能够实现高效的数据集成。我们相信 MDS 是 DataOps 和 MLOps 的基础。
MDS 创建干净、可信且始终可用的数据,使业务用户能够进行自助发现,从而实现真正的数据驱动型文化。
MDS由多层堆叠而成(如蛋糕),每层都有自己的功能。
这是将数据从各种来源(数据库、服务器日志、第三方应用程序等)传输到存储介质的地方。
示例工具:Fivetran、Airbyte
数据仓库或数据湖(或湖仓!)是一种(通常基于云的)解决方案,用于存储从数据引入工具发送的所有收集的数据。在这里可以访问和分析数据。
示例工具:Snowflake,Databricks,Delta Lake
一旦原始数据被移动到存储中,就需要将其转换为用户友好的数据模型。这使分析师或数据科学家可以轻松查询数据以提取见解、构建仪表板甚至 ML 模型。
示例工具:EasyMorph、Airflow、DBT
在这里分析数据并创建仪表板供用户浏览数据。现代数据分析工具的设计也考虑到了非技术用户。这使领域专家能够回答业务问题,而无需依赖开发人员和分析师。
示例工具:Looker、Power BI、ThoughtSpot
示例工具:Atlan、Immuta、Informatica
好消息是,不,您不需要所有这些功能即可运行!MDS设置类似于订购食物,您可以按照当时需求的方式进行设置。例如,您可以订购蛋糕但保留奶油。需要注意的重要一点是,尽管没有任何奶油,但最终结果是你仍然有一个可以吃的蛋糕。
MDS 设置是模块化的,旨在与其他组件和工具兼容(即插即用)。这意味着您可以根据组织的要求切换组件。您还可以自定义设置以使用现有基础结构,而不是完全弃用它。
这种模块化(相对于单片)的另一个优点是,您可以水平旋转组件并避免供应商锁定。不喜欢供应商为数据存储层提供的特定工具?换成更适合您需求的其他供应商。如果组织很年轻,它很可能不需要一次所有组件,因为它的需求更简单。随着组织的发展,它可以根据需要切换或添加更多组件。
并非所有组织都是一样的,也不是所有组织都是一刀切的。以下是不同类型的组织可以在其 MDS 中使用的工具示例。
EventHub + Delta Lake + Databricks + PowerBI
由于许多组织都订阅了Microsoft 365,因此PowerBI是一个自然的选择,因为它包含在企业订阅中。随着对实时报告的需求变得越来越占主导地位,将结构化流式处理与 PowerBI 相结合可以无缝集成到现有分析体系结构中。
FiveTran+SnowFlake+Looker
中小企业有不同程度的需求,倾向于混合和匹配工具和云提供商。Snowflake 是一个合适的选择,因为它与云无关,并且与大多数 ETL 工具兼容。与 Azure 解决方案相比,列出的工具价格昂贵。
AirByte + DBT + Big Query + Metabase
初创企业的团队规模较小,基础设施需求更简单,因此工具需要既经济高效又易于使用。例如,Metabase是一个可视化工具,不需要SQL知识来构建,也不需要BI专家的帮助来使用。
对于开始全新领域的组织来说,这可能非常简单,因为主要的云提供商提供MDS模板(re。AWS湖形成)。但对于拥有现有传统数据堆栈的组织来说,这并不像将所有内容迁移到云那么简单。
如果要从现有的成熟数据堆栈迁移到云,仔细的重新架构将至关重要。如果新的云基础结构是以耦合的整体方式设置的(将一堆本地虚拟机移动到云中),则只会浪费时间。
下一节概述了设置新 MDS 时要注意的重要事项。
我们必须记住,MDS不仅适用于专业数据科学家,也适用于任何想要处理数据的人。由于MDS在设计上是模块化的,因此许多组织倾向于找到所有最佳工具并将它们集成在一起。问题解决了,对吧?
这种方法的问题在于,MDS 现在是围绕工具构建的,而不是为用户构建的。虽然从建筑和工程的角度来看这很好,但它会进入最常见的故障模式:糟糕且令人沮丧的用户体验。
首次实施 MDS 时,通常的方法是查看组织需要什么并相应地购买工具(仪表板、分析等)。不幸的是,这形成了一个 MDS,它是一个脱节的花哨工具集合;与用于解决问题的协作堆栈相去甚远。
用户体验不佳的MDS将导致一个设计精美的数据平台,他们试图支持的分析师和科学家的采用率为零。
这一切都归结为一个简单的概念:用户体验。仅仅因为一个组织拥有最好和最昂贵的工具并不能保证和谐。这些工具的用户应该能够完成工作,而不会觉得他们在打一场艰苦的战斗。从本质上讲,组织应该构建一个围绕最适合其用户的内容设计的 MDS。
最终,这一切都归结为用户体验。设计新式数据堆栈时,请牢记用户的需求和痛点:
这是一个大规模爆炸的景观,并且每天都在不断发展!以下是一些快速了解现代数据堆栈的资源:
第二次世界大战后,汽车制造商努力降低生产成本,并在生产过程中遇到了许多障碍,损害了他们的利润。后来,丰田创建了准时制(JIT)生产系统,该系统消除了大部分问题,并在不影响质量的情况下提高了效率。不久之后,其他制造商意识到了这些好处并采用了类似的方法。
回到科技行业,组织意识到数据变得越来越复杂,他们的传统数据堆栈根本无法应对。现代数据堆栈是一种解决方案,可以帮助组织节省时间、精力和金钱。与传统数据堆栈相比,它更快、更具可扩展性且更易于访问。MDS 还可帮助组织过渡到现代数据驱动型组织,这对于创建业务解决方案至关重要。在当今时代,没有可操作的数据,任何组织都无法保持竞争力。
仅这些好处就足以让任何组织认真重新评估其当前系统。但是,重要的是不要赶上技术嗡嗡声,为了现代化而进行现代化改造。要真正从 MDS 中受益,需要仔细规划以实现良好的用户体验。设计一个好的MDS,让你的员工做他们的工作,回报将是无价的。