OushuDB 小课堂丨4 个常见的数据集成挑战

更多内容请关注 OushuDB 小课堂

将数据成功集成到单一平台的能力可能是一个挑战。良好集成的数据使相关人员可以轻松访问和使用它。整合不良的数据会产生问题。数据集成可以 描述为过程 从各种来源收集数据并将其转换为与数据存储系统兼容的格式——通常是数据库或 数据仓库. 在制定业务决策时使用集成数据已成为许多组织的普遍做法。不幸的是,数据集成过程可能很麻烦,因此很难在需要时使用数据。

成功的数据整合使研究人员能够开发有意义的见解和有用的 商业智能.

集成数据创建了一层信息连接,为研究和分析奠定了基础。数据集成最大限度地发挥了企业数据的价值,但集成过程需要正确的工具和策略。它使企业能够增加回报、优化资源并提高客户满意度。数据集成促进了高质量的数据和有用的商业智能。

随着数据量的不断增长,以及数据的多样性 数据格式,数据集成工具(如数据管道)成为必需品。

通过跨部门共享这些高质量数据,组织可以简化流程并提高客户满意度。集成数据的其他好处包括:

改善沟通与协作
增加数据价值
基于准确数据做出更快、更好的决策
销售额和利润增加
要使数据有用,它必须可用于分析,这意味着它必须采用可读格式。

多种来源
数据可以从内部来源以及各种外部来源收集。从内部来源获取的数据称为“主要数据”,而“二手数据”通常是从外部来源收集的,但并非总是如此。所选数据的来源可以根据研究的需要而变化,每个数据存储系统都是独一无二的。

二手数据不限于来自不同组织的数据。它也可以来自组织内部。此外,还有 开放数据源.

随着数据量的不断增长,数据源的数量越来越多,格式也越来越多,数据集成已经成为进行有用研究的必要条件。它已成为开发商业智能不可或缺的一部分。下面列出了一些数据源示例。

主要数据

传感器: 来自传感器的记录数据,例如照相机或温度计
调查: 业务和服务质量问题的答案
User Input: 常用于记录客户行为(点击次数、停留时间)
地理数据: 某个时间点使用设备的实体(人或机器)的位置
交易: 商业交易(通常在线)
事件数据: 数据的记录由事件触发(电子邮件到达、传感器检测到运动)
二手数据

世界银行开放数据
Data.gov(美国政府的研究)
纽约大学图书馆研究指南(科学)
内部二手数据

Quickbooks(用于费用管理)
Salesforce(用于客户信息/销售数据)
季度销售数据
电子邮件
元数据
网站 cookie
购买的第三方数据也可能是一个问题。两个相当安全的第三方数据源是数据超市 和 数据经纪人. 此类数据由与消费者没有直接关系的企业购买。

顶级数据集成挑战
数据集成是一个持续的过程,它将随着组织的发展而发展。有效地集成数据对于改善客户体验或更好地了解需要改进的业务领域至关重要。企业通常会遇到一些突出的数据集成问题:

  1. 数据不在应有的位置: 当数据未存储在中央位置时,就会出现这种常见问题。相反,数据分布在组织的各个部门。这种情况增加了在研究过程中丢失关键信息的风险。

一个简单的解决方案是将所有数据存储在一个位置(或者两个位置,主数据库和数据仓库)。除了受法律保护的个人信息外,各部门必须共享他们的信息,并且 数据孤岛 将被禁止。

  1. 数据收集延迟: 通常,必须实时处理数据以提供准确且有意义的见解。但是,如果必须有数据技术人员参与,手动完成数据集成过程,则无法进行实时处理。这反过来会导致客户处理和分析的延迟。

这个问题的解决方案是自动化数据集成工具。它们专为实时处理数据而开发,可提高效率和客户满意度。

  1. 非结构化数据格式问题: 数据集成的一个共同挑战是使用 非结构化数据 (照片、视频、音频、社交媒体)。企业正在生成和收集越来越多的非结构化数据。非结构化数据通常包含可以影响业务决策的有用信息。不幸的是,计算机难以读取和分析非结构化数据。

有一些新的软件工具可以帮助翻译非结构化数据(例如,MonkeyLearn,它使用机器学习来寻找模式,Cogito,它使用自然语言处理)。

  1. 劣质数据: 质量差的数据 对研究有负面影响,并可能导致糟糕的决策。在某些情况下,有大量数据,但大量反映了不再相关的“旧”信息,或者与当前信息直接冲突。在其他情况下,重复数据和部分重复数据可能无法准确表示客户行为。手动输入大量数据也可能导致错误。

数据的质量决定了组织商业智能的价值。如果一个组织拥有大量低质量数据,则必须假设没有 数据治理计划 到位,或者数据治理程序设计不当。数据质量不佳的解决方案是实施精心设计的数据治理计划。(开发数据治理计划的第一步是清理数据。这可以在数据质量工具的帮助下在内部完成,或者使用更昂贵的外部帮助解决方案。)

数据集成的未来
数据集成方法正在从 ETL (提取-转换-加载)到自动化 外语教学法 (提取-加载-转换)和基于云的数据集成。机器学习 (ML) 和人工智能 (AI) 处于数据集成开发的早期阶段。

ELT 系统将原始数据直接加载到数据仓库(或数据湖),将转换过程转移到管道的末端。这允许在转换和可能更改数据之前检查数据。在为分析和商业智能处理大量数据时,此过程非常有效。

基于云的数据集成系统可帮助企业合并来自各种来源的数据,通常将其发送到基于云的数据仓库。该集成系统提高了运营效率并支持实时数据处理。随着越来越多的企业使用软件即服务,专家预测超过 90% 的数据驱动型企业最终将转向 基于云的数据集成. 从云端,可以使用各种设备访问集成数据。

使用 机器学习 和 人工智能 集成数据是最近的发展,并且仍在不断发展。AI 和 ML 支持的数据集成需要较少的人工干预,并且相对容易地处理半结构化或非结构化数据格式。AI 可以使用机器学习算法自动执行数据转换映射过程。

更多内容请关注 OushuDB 小课堂

你可能感兴趣的:(oushudb-hawq)