如今,DataOps是每个数据专业人士口中的热门话题,2023年会听到更多关于DataOps的消息。这并不奇怪,因为DataOps具有使企业数据团队能够从其数据中产生重大业务价值的真正潜力。实施DataOps的公司发现,他们能够将周期时间从几周(或几个月)缩短到一天,实际上消除了数据错误,并显著提高了数据工程师和分析师的生产力。
因此,营销DataOps功能的供应商随着这种做法的流行而增长。然而这也导致了在DataOps生态系统中的公司,因急于将现有产品重新命名为与DataOps相关的产品而造成了市场混乱。因为这是一个新的类别,所以DataOps的定义既过于狭窄,也过于宽泛。因此,当试图评估不同的解决方案并确定它们是否会帮助你实现DataOps目标时,很容易不知所措。
那么,究竟什么是DataOps?
简而言之,DataOps是一套技术实践、文化规范和架构,可以实现:
快速试验和创新,以最快的速度向客户提供新见解
低错误率
跨复杂的人员、技术和环境进行协作
对结果进行明确的测量和监测
同样,Gartner将DataOps定义为“一种协作数据管理实践,专注于改善整个组织中数据管理者和数据消费者之间的数据流通信、集成和自动化。”与DevOps一样,DataOps的关键元素包括增加部署频率、自动化测试和监控、版本控制和协作。
这听起来不错,你已经准备好开始了?但下一个大问题是,你的公司如何才能最好地实现这一转变?如何找到真正能帮助你的解决方案?
了解DataOps解决方案
DataOps解决了一系列广泛的工作流程,包括分析创建和端到端数据操作管道。总的来说,这不是一个你可以购买的单一工具。从根本上说,任何DataOps解决方案都应该提高你协调数据管道、自动化测试和监控以及加快新功能部署的能力——同时继续为作业的正确部分选择正确的工具。
可以肯定的是,许多将产品作为DataOps解决方案进行营销的公司在生态系统中发挥着关键作用。然而,重要的是要确切地了解它们所扮演的角色。如果你购买了一个新奇的ETL工具,你会突然意识到DataOps的所有好处吗?可能不会。
在评估DataOps解决方案时,请考虑公司营销其能力的以下方式。
数据工具链——今天作为DataOps解决方案销售的许多工具只是数据工具链的独立组件,用于收集、存储、转换、可视化和管理管道中运行的数据。尽管所有这些技术在价值管道中都发挥着重要作用,但它们并不能确保数据管道中的每一步都作为一个单一、集成和准确的过程来执行和协调,也不能帮助人们和团队更好地协作。请记住,DataOps流程自动化了这些工具在整个管道中的编排和测试。事实上,在真正的DataOps环境中,使用哪种数据工具并不重要。你的团队可以继续使用他们最喜欢的ETL或分析工具,也可以随时添加新工具。通常,工具链的组件以两种不同的方式作为DataOps解决方案进行营销。
DataOps重塑品牌——DataOps概念变得如此模糊的原因之一是,一些公司正在重塑DataOps的实际概念,以适应其产品的功能。例如,DataOps已更名为ETL(例如Hitachi Vantara、Attunity)、流式ETL(例如StreamSets、Lenses.io)或数据虚拟化(例如Delphix)。
光环效应——因为DataOps是一个热门的营销术语,所以许多数据公司在营销中使用这一概念来产生兴趣并不奇怪。做“光环效应”营销的公司正在使用DataOps的正确定义。然而,如果你仔细阅读,通常会得到这样的信息:“DataOps很棒,但首先使用我们的工具。”这类营销的一些例子是IBM对其Cloud Pak for Data、Trifacta for terminal Data prep和Qlik for Data analysis的营销。
数据运营新模式
数据处理工具——数据处理和自动化工具正作为DataOps解决方案的重要组成部分被正确地推向市场。如果你决定自己实现DataOps,将需要这些工具的一些组合。许多流行的DevOps工具也可以使用。
Apache Airflow或Saagie等工具可以促进端到端多工具、多环境管道的协调。
新一代在线DataOps大数据平台--BDOS Online可作为首选,是智领云自主研发的一款云原生 Data Platform as A Service产品,它基于Kubernetes 运行所有大数据及应用组件,支持公有云及私有云发布,并可无缝迁移。
生产和开发管道中每一步的自动化测试和监控对于在错误到达业务用户之前发现并解决错误非常重要。iCEDQ是一个领先的测试和监控平台。
环境和部署技术允许团队在不中断生产的情况下构建自助服务工作环境并进行创新。只需按下一个按钮就可以部署新功能。有许多为此目的构建的工具,包括众所周知的开源工具,如Git(版本控制)、Docker(容器化)和Jenkins(CI/CD)。
智领云云原生DataOps,云原生技术下的DataOps方法论实践,以云原生的方式在平台上运行大数据应用,使数据不再孤立地分布于多个云的孤岛中,从而可以从任何地方流畅安全地进行移动,并以一致、整体的方式管理数据从准备到报表阶段的整个生命周期。
目前,由智领云自主研发的Kubernetes Data Platform(简称KDP),作为市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,深度整合了云原生架构的优势,将大数据组件及数据应用纳入Kubernetes管理体系,标准化系统管理,提升系统运行效率,降低运维成本,消除应用孤岛及数据孤岛,解决传统Hadoop大数据平台在部署,运维,运行效率上由于架构限制带来的难点。
类似Windows的资源管理器,KDP就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。
总结:如果实施得当,DataOps将为数据团队带来令人兴奋的前景,使其能够重新控制其数据管道,并在没有错误的情况下立即交付价值。人们很容易被市面上营销声音所干扰,但请记住,DataOps的核心是一个协调数据管道、自动化测试和监控并加快新功能部署的协作过程。使用像智领云提供的一体式工具,构建出工具、流程和人员的正确组合对于使DataOps取得成功至关重要。
- FIN -
更多精彩推荐
谁在勇闯Kubernetes大数据平台的“无人区”?
“拿捏”Kubernetes,智领云让数据应用标准化
Kubernetes使用现状,直面数据管理问题和挑战
真正的云原生大数据平台,让Kubernetes又牛了一把
国家数据局成立,为云原生大数据平台提供新机遇
点击阅读原文,了解更多详情