Dataops 如何改进数据、分析和机器学习?

Dataops 如何改进数据、分析和机器学习?_第1张图片

您是否注意到大多数组织都在尝试使用其数据做更多的事情?

企业在数据科学计划,自助式商业智能工具,人工智能计划以及组织工作上进行了大量投资,以促进数据驱动的决策制定。 有些公司正在通过将数据可视化嵌入到Web和移动产品中或从传感器(物联网),可穿戴设备和第三方API收集新形式的数据来开发面向客户的应用程序。 还有一些人正在利用来自非结构化数据源(例如文档,图像,视频和口头语言)的情报。

围绕数据和分析的许多工作都是在从中获得价值。 这包括仪表盘,报告以及决策中使用的其他数据可视化; 数据科学家创建的用于预测结果的模型; 或包含数据,分析和模型的应用程序。

有时被低估的是所有潜在的数据操作工作或数据操作,在数据准备好供人们分析并格式化为应用程序以呈现给最终用户之前需要花费这些工作。

Dataops包括所有工作,以获取,处理,清理,存储和管理数据。 我们使用了复杂的术语来表示不同的功能,例如数据集成,数据整理,ETL(提取,转换和加载) ,数据准备,数据质量,主数据管理,数据屏蔽和测试数据管理。

但是汽车不仅仅是零件的总和。

Dataops是一个相对较新的统称,用于收集数据管理实践,其目的是使数据用户(包括高管,数据科学家以及应用程序)成功地从数据中传递业务价值。

dataops如何与其他技术实践一起工作

Dataops共享敏捷方法论的各个方面,因为它推动了数据处理指标和质量的迭代改进。 它还共享一些开发方面的内容,尤其是在自动化数据流方面,可以更频繁地更改数据处理功能,并减少响应数据操作事件时的恢复时间。

甚至还有已发布的DataOps宣言,其中包含20条原则,涉及文化(不断满足您的客户),团队动态(自组织,每天互动),技术实践(创建可使用的环境)和质量(显示器质量和性能)。

您可能想知道为什么需要或有用的术语。 答案是,它简化了对话并定义了此关键业务功能的角色。 它有助于推动投资,调整团队并确定围绕业务成果的优先级。

更好地理解新术语的一种方法是围绕人员,过程,技术和文化进行定义。

了解数据操作的人员方面

对于人员,有几个与数据操作相关的角色:

  • 客户是所产生的数据,分析,应用程序和机器学习的直接受益者。 他们可以是实际的产品或服务客户,也可以是内部客户,例如使用分析进行决策的主管和领导人员,或者是在业务流程中使用数据的其他员工。
  • 数据最终用户包括数据科学家,仪表板开发人员,报告编写者,应用程序开发人员, 公民数据科学家 ,以及其他消耗数据以通过应用程序,数据可视化,API或其他工具提供结果的人员。
  • 直接从事数据操作的人员,包括数据库工程师,数据工程师和其他管理数据流和数据库工具的开发人员。
  • 负责数据质量,定义和链接的数据管理员。
  • 企业所有者通常是数据服务的购买者,并拥有有关采购,资金,创建策略和处理(数据供应链)的决策。

定义数据操作流程,开发和操作流程

Dataops具有许多流程和纪律,但是组织投资和成熟的内容很大程度上取决于业务需求的性质,数据类型,数据复杂性,服务水平要求和合规性因素。

数据操作的一方面表示从源到传递的数据流。 这是通过数据操作开发和操作过程管理的制造过程。 可以在不同的数据集成技术,数据清理技术和数据管理平台上开发数据流或数据管道。 这些过程不仅引入数据,还为数据管理者提供工具,以管理数据质量和主数据规则的异常,启用数据沿袭和其他元数据功能以及执行数据归档和删除过程。

数据操作的第二个方面是开发过程,通过该过程可以维护和增强数据流的各个方面。 这篇文章很好地描述了这一过程: “ Dataops不只是数据的开发者 。” 开发过程包括几个阶段:沙箱管理,开发,编排,测试,部署和监视。 编排,测试和部署阶段类似于devops CI / CD管道 。

数据操作流程的最后方面涉及运营和管理基础架构。 像devop一样,其中一些工作与管理生产数据流并确保其可靠性,安全性和性能有关。 由于数据科学工作流(尤其是围绕机器学习的工作流)变化很大,因此开发可伸缩,高性能,拆解开发和数据科学环境以支持各种工作负载也承担着更具挑战性的责任。

Dataops技术的广阔前景

由于dataops涵盖了大量的数据编排,处理和管理功能,因此许多技术都适用于此术语。 此外,由于许多企业正在投资于大数据,数据科学和机器学习功能,因此在这一领域竞争的供应商数量很多。

这是一个简短的起点:

  • Amazon Web Services具有七种类型的数据库 ,从普通关系数据库到文档存储和键值数据库。 Azure还提供了几种数据库类型 。
  • 许多工具集成数据并创建数据流,包括数据集成和数据流 。 在数据流中,有数据质量和主数据管理 。
  • 有许多工具与数据操作的开发,数据科学和测试方面有关。 许多组织都使用Jupyter ,但是数据科学工作还有其他选择 。 为了进行测试,请考虑使用诸如Delphix和QuerySurge之类的工具。
  • Alteryx , Databricks , Dataiku和ai提供了端到端分析和机器学习平台,融合了数据操作,数据科学和开发人员功能。
  • 其他工具可解决数据安全性 , 数据屏蔽和其他数据操作。

竞争情报推动数据运营文化

Devops之所以出现,是因为运行敏捷开发流程的应用程序开发团队之间存在紧张关系,他们不得不经常发布代码,而运营团队自然会放慢速度以确保可靠性,性能和安全性。 Devops团队按照任务要求做好工作,并在自动化方面进行投资,例如CI / CD , 自动化测试 , 基础架构即代码以及集中式监控,以帮助弥合技术差距。

Dataops带来了另一个小组。 数据科学家,仪表板开发人员,数据工程师,数据库开发人员和其他工程师致力于数据流和数据质量。 除了管理发布速度以及基础架构的性能,可靠性和安全性之外,dataops团队还推动了数据,分析,机器学习模型和其他数据可交付成果的竞争价值。

竞争价值由可交付的整体分析驱动,也由数据运营团队如何处理复杂的数据来驱动。 数据流过数据流的速度有多快? 支持什么数据量和什么质量水平? 团队能够以多快的速度集成新的数据源?数据库平台可满足各种日益增长的数据建模需求的通用性如何?

这些只是dataops团队必须检查的问题和绩效指标。 随着越来越多的组织从数据和分析投资中获得业务价值,期望围绕数据操作实践和文化提出相应的需求。

From: https://www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html

你可能感兴趣的:(Dataops 如何改进数据、分析和机器学习?)