机器学习和数据分析_dataops如何改善数据,分析和机器学习

机器学习和数据分析

您是否注意到大多数组织都在尝试使用其数据做更多的事情?

企业在数据科学计划,自助式商业智能工具,人工智能计划以及组织工作上进行了大量投资,以促进数据驱动的决策制定。 一些公司正在通过将数据可视化嵌入到Web和移动产品中或从传感器(物联网),可穿戴设备和第三方API收集新形式的数据来开发面向客户的应用程序。 还有一些人正在利用来自非结构化数据源(例如文档,图像,视频和口头语言)的情报。

[InfoWorld的要点: 什么是大数据分析? 您需要了解的所有内容 • 什么是数据挖掘? 分析如何发现见解 。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

围绕数据和分析的许多工作都是在从中传递价值。 其中包括仪表盘,报告以及决策中使用的其他数据可视化; 数据科学家创建的用于预测结果的模型; 或包含数据,分析和模型的应用程序。

有时被低估的是所有潜在的数据操作工作或数据操作,这些操作或数据操作在数据准备好供人们分析并格式化为应用程序以呈现给最终用户之前需要花费。

Dataops包括所有工作,以获取,处理,清理,存储和管理数据。 我们使用复杂的行话来表示不同的功能,例如数据集成,数据整理,ETL(提取,转换和加载) ,数据准备,数据质量,主数据管理,数据屏蔽和测试数据管理。

但是汽车不仅仅是零件的总和。

Dataops是一个相对较新的统称,用于收集数据管理实践,其目的是使数据用户(包括高管,数据科学家以及应用程序)成功地从数据中传递业务价值。

dataops如何与其他技术实践一起工作

Dataops共享敏捷方法的各个方面,因为它推动了数据处理指标和质量的迭代改进。 它还共享一些开发方面的内容,尤其是在自动化数据流方面,可以更频繁地更改数据处理功能,并减少响应数据操作事件时的恢复时间。

甚至还有已发布的DataOps宣言,其中包含20条原则,涉及文化(不断满足您的客户),团队动态(自组织,每天互动),技术实践(创建可使用的环境)和质量(显示器质量和性能)。

您可能想知道为什么需要或有用的术语。 答案是,它简化了对话并定义了此关键业务功能的角色。 它有助于推动投资,调整团队并围绕业务成果定义优先级。

更好地理解新术语的一种方法是围绕人员,过程,技术和文化进行定义。

了解数据操作的人员方面

当涉及到人员时,有几个与数据操作相关的角色:

  • 客户是所产生的数据,分析,应用程序和机器学习的直接受益者。 他们可以是实际的产品或服务客户,也可以是内部客户,例如使用分析进行决策的主管和领导人员,或者是在业务流程中使用数据的其他员工。
  • 数据最终用户包括数据科学家,仪表板开发人员,报告编写者,应用程序开发人员, 公民数据科学家以及其他消耗数据以通过应用程序,数据可视化,API或其他工具提供结果的人员。
  • 直接从事数据操作的人员,包括数据库工程师,数据工程师和其他管理数据流和数据库工具的开发人员。
  • 负责数据质量,定义和链接的数据管理员。
  • 企业所有者通常是数据服务的购买者,并拥有有关采购,资金,制定策略和处理(数据供应链)的决策。

定义数据操作流程,开发和操作流程

Dataops具有许多流程和纪律,但是组织投资和成熟的内容很大程度上取决于业务需求的性质,数据类型,数据复杂性,服务级别要求和合规性因素。

数据操作的一方面表示从源到传递的数据流。 这是通过数据操作开发和操作过程管理的制造过程。 可以在不同的数据集成技术,数据清理技术和数据管理平台上开发数据流或数据管道。 这些过程不仅引入数据,还为数据管理员提供工具,以管理数据质量和主数据规则的异常,启用数据沿袭和其他元数据功能以及执行数据归档和删除过程。

数据操作的第二个方面是开发过程,通过该过程可以维护和增强数据流的各个方面。 这篇文章很好地描述了这一过程: “ Dataops不仅仅是数据的开发者 。” 开发过程包括几个阶段:沙箱管理,开发,编排,测试,部署和监视。 编排,测试和部署阶段类似于devops CI / CD管道 。

数据操作流程的最后方面涉及运营和管理基础架构。 像devop一样,其中一些工作与管理生产数据流并确保其可靠性,安全性和性能有关。 由于数据科学工作流程(尤其是围绕机器学习的工作流程)变化很大,因此开发可伸缩,高性能,拆解开发和数据科学环境以支持各种工作负载的责任也越来越艰巨。

Dataops技术的广阔前景

由于dataops涵盖了大量的数据编排,处理和管理功能,因此许多技术都适用于此术语。 此外,由于许多企业正在投资于大数据,数据科学和机器学习功能,因此在这一领域竞争的供应商数量很多。

这是一个简短的起点:

  • Amazon Web Services有七种类型的数据库 ,从普通关系数据库到文档存储和键值数据库。 Azure还提供了几种数据库类型 。
  • 许多工具集成数据并创建数据流,包括数据集成和数据流 。 在数据流中,有数据质量和主数据管理 。
  • 有许多工具与数据操作的开发,数据科学和测试方面有关。 许多组织都使用Jupyter ,但是数据科学工作还有其他选择 。 为了进行测试,请考虑使用诸如Delphix和QuerySurge之类的工具。
  • Alteryx , Databricks , Dataiku和ai提供了端到端的分析和机器学习平台,融合了数据操作,数据科学和开发人员功能。
  • 其他工具可处理数据安全性 , 数据屏蔽和其他数据操作。

竞争情报推动数据运营文化

之所以出现Devops,是因为运行敏捷开发流程的应用程序开发团队之间存在紧张关系,他们不得不频繁发布代码,而运营团队自然会放慢速度以确保可靠性,性能和安全性。 Devops团队将任务做好,并在CI / CD 自动化 , 自动化测试 , 基础架构即代码以及集中监控等 自动化方面进行了投资 ,以帮助弥合技术差距。

Dataops带来了另一个小组。 数据科学家,仪表板开发人员,数据工程师,数据库开发人员和其他工程师致力于数据流和数据质量。 除了管理发布速度以及基础架构的性能,可靠性和安全性之外,dataops团队还可以推动数据,分析,机器学习模型和其他数据可交付成果的竞争价值。

竞争价值由整体分析交付物驱动,也由数据运营团队如何处理复杂的数据来驱动。 数据流过数据流的速度有多快? 支持什么数据量和什么质量水平? 团队能够以多快的速度集成新的数据源?数据库平台如何满足日益增长的各种数据建模需求?

这些只是dataops团队必须检查的问题和绩效指标。 随着越来越多的组织从数据和分析投资中获得业务价值,期望围绕数据操作实践和文化提出相应的需求。

翻译自: https://www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html

机器学习和数据分析

你可能感兴趣的:(数据库,大数据,编程语言,python,机器学习)