相关文章
“大数据”一词在过去十年中开始出现在词典中,但这个概念本身至少从二战开始就已经存在。最近,无线连接、互联网 2.0 和其他技术使对海量数据集的管理和分析成为我们所有人的现实。
大数据是指对于传统的数据处理和数据管理应用来说过于庞大和复杂的数据集。随着移动技术和物联网的出现,大数据变得越来越流行,因为人们使用他们的设备产生越来越多的数据。考虑由地理定位服务、网络浏览器历史记录、社交媒体活动甚至健身应用程序生成的数据。
该术语还可以指收集和分析大量数字信息以生成商业智能的过程。随着数据集的不断增长,应用程序产生更多的实时流数据,企业正在转向云来存储、管理和分析他们的大数据。
了解 Talend 如何帮助电子商务巨头 OTTO利用大数据与亚马逊竞争。
消费者生活在一个即时期望的数字世界中。从数字销售交易到营销反馈和改进,当今基于云的商业世界中的一切都在快速发展。所有这些快速交易都以同样的速度生成和编译数据。实时充分利用这些信息通常意味着利用信息获取目标受众的 360 度全景,或将客户流失给这样做的竞争对手之间的区别。
管理和利用数据操作的可能性(和潜在的陷阱)是无穷无尽的。以下是大数据可以改变组织的一些最重要的方式:
几乎每个行业的组织和品牌都在使用大数据开辟新天地。航运公司依靠它来计算运输时间和设定费率。大数据是开创性科学和医学研究的支柱,带来前所未有的分析和研究能力。它影响着我们每天的生活方式。
大数据通常由行业专家通过 5 V 进行限定,每一个都应该单独处理,并考虑它与其他部分的交互方式。
量- 为将要使用的数据量制定计划,以及如何以及在何处存储这些数据。
多样性- 识别生态系统中所有不同的数据来源,并获得正确的工具来摄取它。
速度- 同样,速度在现代商业中至关重要。研究和部署正确的技术,以确保尽可能接近实时地开发大数据图片。
真实性- 垃圾进,垃圾出,所以要确保数据准确和干净。
价值- 并非所有收集的环境信息都同等重要,因此构建一个大数据环境,以易于理解的方式呈现可操作的商业智能。
我们想再添加一个:
美德——大数据使用的道德问题也需要根据数据隐私和合规的所有法规来解决。
了解 Talend 如何帮助企业 降低集成大数据的成本。
大数据实际上是关于新用例和新见解,而不是数据本身。大数据分析是检查非常大的细粒度数据集以发现隐藏模式、未知相关性、市场趋势、客户偏好和新业务洞察力的过程。人们现在可以提出传统数据仓库无法解决的问题,因为它只能存储聚合数据。
Imagine for a minute looking at a painting of Mona Lisa and only seeing big pixels. This is the view you’re getting from customers in a data warehouse. In order to get the fine-grained view of your customers, you’d need to store fine, granular, nano-level data about these customers and use big data analytics like data mining or machine learning to see the fine-grained portrait.
数据湖是一个中央存储库,它以原始的粒度格式保存来自许多来源的大数据。它可以存储结构化、半结构化或非结构化数据,这意味着数据可以以更灵活的格式保存以备将来使用。存储数据时,数据湖会将其与标识符和元数据标签相关联,以加快检索速度。数据科学家可以使用数据湖更快、更准确地访问、准备和分析数据。对于分析专家来说,这个庞大的数据池(以各种非传统格式提供)提供了独特的机会来访问各种用例的数据,例如情绪分析或欺诈检测。
了解数据湖和数据仓库之间的差异。
掌握上述所有内容从基础开始。在大数据的情况下,通常涉及 Hadoop、MapReduce 和 Spark,Apache 软件项目的 3 种产品。
Hadoop是一种开源软件解决方案,旨在处理大数据。Hadoop 中的工具有助于将处理海量数据集所需的处理负载分配到几个或几十万个独立的计算节点上。Hadoop 没有将 PB 的数据移动到一个微小的处理站点,而是相反,大大加快了信息集的处理速度。
顾名思义,MapReduce有助于执行两个功能:编译和组织(映射)数据集,然后将它们细化为用于响应任务或查询的更小、有组织的集。
Spark也是 Apache 基金会的一个开源项目,它是一个用于大规模处理和机器学习的超快速分布式框架。Spark 的处理引擎可以作为独立安装、云服务或任何流行的分布式计算系统(如 Kubernetes 或 Spark 的前身 Apache Hadoop)运行。
来自 Apache 的这些和其他工具是在您的组织中充分利用大数据的最值得信赖的方法之一。
随着云技术的爆炸式增长,处理不断增长的数据海洋的需求成为设计数字架构的底层考虑因素。在交易、库存甚至 IT 基础设施可以以纯虚拟状态存在的世界中,良好的大数据方法通过从许多来源摄取数据来创建整体概览,包括:
即使是对大数据趋势最保守的分析也表明现场物理基础设施的不断减少和对虚拟技术的依赖越来越大。随着这种演变,对工具和合作伙伴的依赖将越来越大,这些工具和合作伙伴可以处理机器被模拟它们的位和字节所取代的世界。
大数据不仅仅是未来的重要组成部分,它可能就是未来本身。业务、组织和支持他们的 IT 专业人员完成其使命的方式将继续受到我们存储、移动和理解数据方式的演变的影响。
在引入云平台之前,所有的大数据处理和管理都是在本地完成的。Microsoft Azure、Amazon AWS和 Google BigQuery等基于云的平台的引入现在使远程完成数据管理流程成为可能(并且具有优势)。
无服务器架构上的云计算为企业和组织带来了一系列好处,包括:
大数据集成工具有可能大大简化这个过程。您应该在大数据工具中寻找的功能是:
我们处理大数据的方法很简单:我们以业务发展的速度提供您可以信赖的数据。我们的目标是为您提供团队所需的所有工具,以从几乎任何来源捕获和集成数据,以便您可以获取其最大价值。
Talend for Big Data 可帮助数据工程师以比手动编码快 10 倍的速度完成集成工作,而成本却是后者的一小部分。那是因为平台是:
知识就是力量,大数据就是知识。很多。
无论您是需要对业务运营、客户行为还是行业趋势进行更细致的洞察,Talend 都可以帮助您的团队使用大数据来保持领先于数据曲线。下载Talend Big Data Integration 免费试用版, 了解您的大数据可以带来的巨大变化。
相关文章
数据仓库是用于帮助组织做出决策的大量业务数据集合。数据仓库的概念自 1980 年代就已存在,当时开发它的目的是帮助将数据从仅支持运营转变为支持揭示商业智能的决策支持系统。数据仓库中的大量数据来自不同的地方,如营销、销售、财务等内部应用;面向客户的应用程序;和外部合作伙伴系统等。
在技术层面上,数据仓库会定期从这些应用程序和系统中提取数据;然后,数据经过格式化和导入过程以匹配仓库中已有的数据。数据仓库存储这些处理过的数据,以便决策者可以访问。数据拉取发生的频率或数据的格式等将根据组织的需求而有所不同。
使用数据仓库来协助其分析和商业智能的组织看到了许多实质性的好处:
很容易将数据仓库与数据库混淆 ,因为这两个概念有一些相似之处。但是,主要区别在企业需要对大型数据集合执行分析时生效。数据仓库用于处理此类任务,而数据库则不是。这是一张比较图,可以说明两者之间的区别:
数据库 | 数据仓库 | |
---|---|---|
这是什么 | 为多种交易目的收集的数据。针对读/写访问进行了优化。 | 聚合交易数据,为分析目的进行转换和存储。针对大型数据集的聚合和检索进行了优化。 |
如何使用 | 建立数据库是为了快速记录和检索信息。 | 数据仓库存储来自多个数据库的数据,这使得分析更容易。 |
类型 | 数据库用于数据仓库。但是,该术语通常指的是在线事务处理数据库。还有其他类型,包括用于数据库目的的 csv、html 和 Excel 电子表格。 | 数据仓库是一种分析数据库,它位于事务数据库之上以进行分析。 |
尽管它们都是为业务分析目的而构建的,但数据湖和数据仓库之间的主要区别在于,数据湖以原始格式存储来自所有数据源的所有类型的原始、结构化和非结构化数据,直到需要为止。相比之下,数据仓库以更有条理的方式将数据存储在文件或文件夹中,便于报告和数据分析。
数据仓库有时也与数据集市混淆 。但是数据仓库通常更大,包含更多种类的数据,而数据集市的应用受到限制。
数据集市通常是仓库的子集,旨在为特定应用程序轻松地将特定数据交付给特定用户。简单来说,可以将数据集市视为单一主题,而数据仓库涵盖多个主题。
随着企业迁移到云,他们的数据库和数据仓库工具也在迁移。云提供了许多优势:灵活性、协作性和可从任何地方访问,仅举几例。Amazon Redshift、 Microsoft Azure SQL 数据仓库、 Snowflake、 Google BigQuery等流行工具 都为企业提供了存储和分析其云数据的简单方法。
云模型降低了进入门槛——尤其是成本、复杂性和漫长的价值实现时间——这些传统上限制了数据仓库技术的采用和成功使用。它允许组织根据需要扩大或缩小(打开或关闭)数据仓库容量。此外,开始使用云数据仓库既快速又容易。这样做既不需要大量的前期投资,也不需要耗时(而且成本也不低)的部署过程。
云数据仓库架构在很大程度上消除了本地数据仓库范式所特有的风险。您无需为硬件和软件进行预算和采购。您不必为年度维护和支持预留预算项目。在云中,传统上数据仓库团队关注的成本问题——计划内和计划外系统升级的预算——消失了。
Beachbody是一家领先的健身、营养和减肥计划供应商,需要更好地为客户提供针对性和个性化的产品,以便为客户带来更好的健康结果,并最终实现更好的业务绩效。
该公司通过在 AWS 上添加一个基于 Hadoop 的云数据湖来改进其分析架构,该湖由Talend Real-Time Big Data 提供支持。这种新架构使 Beachbody 能够将数据采集时间减少 5 倍,同时还提高了营销活动数据库的准确性。
通过超越简单的数据库并进入数据仓库世界,组织可以从他们的分析工作中获得更多收益。找到合适的仓储解决方案来满足业务需求,可以在公司为客户提供服务和发展运营方面的效率方面产生巨大的影响。
相关文章
数字世界的规模每年都在翻倍,预计到 2020 年将达到 44 万亿 GB。高达 90% 的数据是非结构化或半结构化的,这带来了双重挑战:找到一种方法来存储所有这些数据并保持快速处理数据的能力。这就是数据湖的用武之地。
数据湖是一个中央存储库,它以原始的粒度格式保存来自许多来源的大数据。它可以存储结构化、半结构化或非结构化数据,这意味着数据可以以更灵活的格式保存以备将来使用。存储数据时,数据湖会将其与标识符和元数据标签相关联,以加快检索速度。
Pentaho 的 CTO James Dixon 创造了术语“数据湖”,指的是数据湖中数据的临时性质,而不是存储在传统数据仓库系统中的干净和处理过的数据。
数据湖通常配置在一组廉价且可扩展的商品硬件上。这允许将数据转储到湖中,以防以后需要它而不必担心存储容量。集群可以存在于本地或云中。
数据湖很容易与数据仓库混淆,但它们具有一些明显的区别,可以为合适的组织带来巨大的好处——尤其是在大数据和大数据流程继续从本地迁移到云的情况下。
数据湖的工作原理称为schema-on-read。这意味着在存储之前没有需要将数据拟合到其中的预定义模式。只有在处理过程中读取数据时,才会根据需要将其解析并调整为模式。此功能可节省大量通常用于定义架构的时间。这也使数据能够以任何格式按原样存储。
数据科学家可以使用数据湖更快、更准确地访问、准备和分析数据。对于分析专家来说,这个庞大的数据池——以各种非传统格式提供——提供了访问数据的机会,用于各种用例,如情感分析或欺诈检测。
数据湖和数据仓库的基本目的和目标相似,因此很容易混淆:
但是,两者之间存在根本区别,使它们适用于不同的场景。
有关这种区别的更多信息,并帮助确定哪个最适合您的组织,请参阅“数据湖与数据仓库”。→
数据湖传统上在本地实施,存储在 HDFS 上,处理 (YARN) 在Hadoop 集群上。Hadoop 具有可扩展性、低成本,并以其数据本地性(数据和计算驻留在一起)的固有优势提供了良好的性能。
但是,创建本地基础架构存在挑战:
另一方面,云数据湖有助于克服这些挑战。云中的数据湖是:
节省的房地产也增加了成本效益。
了解 BeachBody 如何通过云数据湖提高其数据架构和劳动力的可扩展性:
当然,使用云数据湖存在挑战。由于安全风险,一些组织不喜欢将机密和敏感信息存储在云中。尽管大多数基于云的数据湖供应商多年来都保证安全并增加了保护层,但数据窃取的不确定性仍然迫在眉睫。
另一个实际挑战是一些组织已经建立了数据仓库系统来存储其结构化数据。他们可能会选择将所有数据迁移到云中,或者探索一种混合解决方案,该解决方案使用通用计算引擎访问来自仓库的结构化数据和来自云的非结构化数据。
数据治理是另一个问题。数据湖不应成为难以涉足的数据沼泽。Talend 的平台可确保数据湖保持清洁和可访问。
重要的是要记住,数据湖有两个组成部分:存储和计算。存储和计算都可以位于本地或云中。这导致在设计数据湖架构时有多种可能的组合。
组织可以选择完全留在本地,将整个架构迁移到云中,考虑多个云,甚至是这些选项的混合。
这里没有单一的食谱。根据组织的需要,有几个不错的选择。
许多人将Hadoop与数据湖联系起来。
分布式服务器的Hadoop集群解决了大数据存储的问题。Hadoop 的核心是其存储层 HDFS(Hadoop 分布式文件系统),它跨多个服务器存储和复制数据。YARN(Yet Another Resource Negotiator)是决定如何在每个节点上调度资源的资源管理器。MapReduce 是 Hadoop 用于将数据拆分为更小的子集并在其服务器集群中处理它们的编程模型。
除了这三个核心组件之外,Hadoop 生态系统还包括多个辅助工具,例如 Hive、Pig、Flume、Sqoop 和 Kafka,它们有助于数据的摄取、准备和提取。Hadoop 数据湖可以使用 Cloudera 和 HortonWorks 等企业平台在本地和云中设置。其他云数据湖(例如 Azure)围绕 Hadoop 架构包装功能。
优势:
AWS为其数据湖解决方案提供了一套详尽的产品。
Amazon Simple Storage Service (Amazon S3) 是提供存储功能的解决方案的核心。Kinesis Streams、Kinesis Firehose、Snowball 和 Direct Connect 是数据摄取工具,允许用户将大量数据传输到 S3。还有一个数据库迁移服务,可帮助将现有的本地数据迁移到云端。
除了 S3,还有 DynamoDB(一种低延迟的 No-SQL 数据库)和 Elastic Search(一种提供简化机制来查询数据湖的服务)。Cognito 用户池定义了用户身份验证和对数据湖的访问。安全令牌服务、密钥管理服务、CloudWatch 和 CloudTrail 等服务确保数据安全。对于处理和分析,有 RedShift、QuickSight、EMR 和机器学习等工具。
AWS 提供的大量产品列表具有陡峭的初始学习曲线。然而,该解决方案的综合功能在商业智能应用程序中得到了广泛的使用。
优势:
Azure是 Microsoft 提供的数据湖。它有一个存储层和一个分析层;存储层称为 Azure Data Lake Store (ADLS),分析层由两个组件组成:Azure Data Lake Analytics 和 HDInsight。
ADLS 建立在 HDFS 标准之上,具有无限的存储容量。它可以存储数万亿个文件,单个文件的大小超过 1 PB。ADLS 允许以任何格式存储数据,并且安全且可扩展。它支持任何使用 HDFS 标准的应用程序。这使得现有数据的迁移更加容易,并且还促进了与其他计算引擎的即插即用。
HDInsight 是一种基于云的数据湖分析服务。它构建在 Hadoop YARN 之上,允许使用 Spark、Hive、Kafka 和 Storm 等工具访问数据。由于与 Azure Active Directory 集成,它支持企业级安全性。
Azure Data Lake Analytics 也是一种分析服务,但其方法不同。它没有使用 Hive 等工具,而是使用一种称为 U-SQL(SQL 和 C# 的组合)的语言来访问数据。它非常适合大数据批处理,因为它以更低的成本提供更快的速度(只需为使用的作业付费)。
优势:
有关数据湖如何工作或如何开始的更多详细信息,请查看以下资源:
数据湖具有处理速度和多样性的能力,让商业智能用户感到兴奋。现在,有机会将处理过的数据与互联网上可用的主观数据结合起来。
可以筛选 X 射线和 MRI 扫描等机器数据,以确定疾病的因果模式。在物联网应用中,可以以令人难以置信的速度处理大量传感器数据。零售业能够使用关于用户的大量数据来提供全渠道体验。
数据湖不仅可用于高级预测分析应用程序,还可用于定期组织报告,尤其是在涉及不同数据格式时。
这不再是是否需要数据湖的问题,而是使用哪种解决方案以及如何实施它的问题。查看我们的云数据仓库和云数据湖权威指南,了解如何最大化您的数据湖投资。
相关文章
ETL 和 ELT 有很多共同点。就其核心而言,每种集成方法都可以将数据从源移动到数据仓库。该差值这两个谎言之间在数据转换以及如何将数据的多少,被保留在工作数据仓库。在本文中,我们将更详细地考虑 ETL 和 ELT,以帮助您确定哪种数据集成方法适合您的业务。
提取/转换/加载 (ETL)是一种集成方法,它从远程源提取信息,将其转换为定义的格式和样式,然后将其加载到数据库、数据源或数据仓库中。
提取/加载/转换 ( ELT ) 类似地从一个或多个远程源提取数据,然后将其加载到目标数据仓库中,而无需任何其他格式。ELT 过程中的数据转换发生在目标数据库中。ELT 对远程来源的要求较少,只需要原始和未准备好的数据。
ELT 已经存在了一段时间,但重新对Apache Hadoop等工具产生了兴趣 。 像转换 PB 级原始数据这样的大型任务被分成多个小作业,进行远程处理,然后返回加载到数据库中。
处理能力的改进,尤其是虚拟集群,减少了拆分作业的需要。过去分布在云端、处理和返回的大数据任务现在可以在一个地方处理。
每种方法都有其优点。在规划数据架构时,IT 决策者在选择 ETL 或 ELT 时必须考虑内部能力和云技术日益增长的影响。
与 ETL 不同,提取/加载/转换是从无限数量的来源收集信息、将它们加载到处理位置并将它们转换为可操作的商业智能的过程。
取决于公司现有的网络架构、预算以及它已经利用云和大数据技术的程度,并非总是如此。但是,当以下三个重点领域中的任何一个或所有领域都至关重要时,答案可能是肯定的。
因为 ELT 不必等待数据在异地工作然后加载,(数据加载和转换可以并行发生)摄取过程要快得多,提供原始信息的速度比 ETL 快得多。
将数据转化为商业智能的优势在于能够将隐藏的模式转化为可操作的信息。通过保留所有历史数据,组织可以沿着时间线、销售模式、季节性趋势或任何对组织变得重要的新兴指标进行挖掘。由于数据在加载之前没有进行转换,因此您可以访问所有原始数据。通常,云数据湖有一个原始数据存储,然后是一个精炼(或转换)的数据存储。例如,数据科学家更喜欢访问原始数据,而业务用户更喜欢商业智能的规范化数据。>
当您使用 Hadoop 等高端数据处理引擎或云数据仓库时,ELT 可以利用原生处理能力实现更高的可扩展性。
ETL 和 ELT 都是从原始数据生成商业智能的历史悠久的方法。但是,与几乎所有技术一样,云正在改变企业应对 ELT 挑战的方式。
云带来了一系列功能,许多行业专业人士认为,这些功能最终将使内部部署数据中心成为过去。云通过提供以下功能克服了 ELT 的自然障碍:
与大多数云服务一样,基于云的 ELT 是即用即付的。这意味着当处理大量 ETL 作业时,计算和存储成本会更高,但当环境在最小压力下运行时会降至接近零。平均每年,这导致总拥有成本低得多——尤其是在没有前期投资的情况下。
在这些和许多其他方面,云正在重新定义公司何时以及如何本地化商业智能产品。
为了正确完成工作,每个组织都依赖于正确的工具和专业知识。与任何任务一样,生产过程早期的错误会随着项目的发展而放大,并且有一些常见的陷阱会破坏任何 ELT 架构。
提前回答关键问题可以创建负责任的 ELT 实践,并使企业为丰富的信息收获做好准备,这些信息每天都会影响底线。
集成您的数据不一定很复杂或昂贵。Talend Cloud Integration Platform 简化了您的 ETL 或 ELT 流程,因此您的团队可以专注于其他优先事项。
借助 900 多个组件,与单独手动编码相比,您几乎可以将数据从任何来源移动到您的数据仓库中。我们将帮助您减少支出、加快实现价值的时间并提供您可以信赖的数据。
下载Talend Cloud Integration的免费试用版,看看 ETL 有多简单。
相关文章
数据集成是将来自不同来源的数据组合成单一、统一视图的过程。集成从摄取过程开始,包括清理、ETL 映射和转换等步骤。数据集成最终使分析工具能够产生有效的、可操作的商业智能。
没有通用的数据集成方法。但是,数据集成解决方案通常涉及一些常见元素,包括数据源网络、主服务器和从主服务器访问数据的客户端。
在典型的数据集成过程中,客户端向主服务器发送数据请求。然后主服务器从内部和外部来源获取所需的数据。数据是从源中提取的,然后合并为一个单一的、有凝聚力的数据集。这将返回给客户端以供使用。
了解 Talend 如何帮助 Domino's Pizza整合来自 85,000 多个来源的数据。
即使一家公司正在接收它需要的所有数据,这些数据通常也驻留在多个单独的数据源中。例如,对于典型的客户 360 度视图用例,必须合并的数据可能包括来自其 CRM 系统的数据、网络流量、营销运营软件、面向客户的应用程序、销售和客户成功系统,甚至合作伙伴数据,只是仅举几例。来自所有这些不同来源的信息通常需要汇集在一起以用于分析需求或操作行动,对于数据工程师或开发人员来说,将它们汇集在一起并非易事。
让我们看一个典型的分析用例。如果没有统一的数据,单个报告通常涉及登录多个帐户、多个站点、访问本机应用程序中的数据、复制数据、重新格式化和清理,所有这些都在分析发生之前进行。
尽可能高效地执行所有这些操作凸显了数据集成的重要性。它还展示了经过深思熟虑的数据集成方法的主要好处:
每个部门的员工——有时甚至位于不同的物理位置——越来越需要访问公司的共享和个人项目数据。IT 需要一个安全的解决方案,通过跨所有业务线的自助访问来交付数据。
此外,几乎每个部门的员工都在生成和改进其他业务所需的数据。数据集成需要协作和统一,以改善整个组织的协作和统一。
当一家公司采取措施正确集成其数据时,它会大大减少准备和分析该数据所需的时间。统一视图的自动化消除了手动收集数据的需要,员工在需要运行报告或构建应用程序时不再需要从头开始构建连接。
此外,使用正确的工具, 而不是手动编码 集成,可以为开发团队返回更多时间(和整体资源)。
在这些任务上节省的所有时间都可以用于其他更好的用途,将更多的时间用于分析和执行,从而使组织更具生产力和竞争力。
当涉及到公司的数据资源时,有很多事情需要跟上。要手动收集数据,员工必须知道他们可能需要探索的每个位置和帐户——并在开始之前安装所有必要的软件——以确保他们的数据集完整和准确。如果添加了数据存储库,而该员工不知道,他们将拥有不完整的数据集。
此外,如果没有同步数据的数据集成解决方案,则必须定期重做报告以说明任何更改。但是,通过自动更新,可以在需要时轻松实时地运行报告。
随着时间的推移,数据集成工作实际上会提高企业数据的价值。随着数据被整合到一个集中的系统中,质量问题得到识别并实施必要的改进,最终产生更准确的数据——质量分析的基础。
数据集成不是一刀切的解决方案;正确的公式可以根据众多业务需求而有所不同。以下是数据集成工具的一些常见用例:
数据湖可能非常复杂且数量庞大。例如,Facebook 和谷歌等公司处理来自数十亿用户的不间断涌入的数据。这种信息消费水平通常被称为大数据。随着越来越多的大数据企业出现,更多的数据可供企业利用。这意味着对复杂数据集成工作的需求成为许多组织运营的核心。
数据集成计划——尤其是在大型企业中——通常用于创建数据仓库,将多个数据源组合到一个关系数据库中。数据仓库允许用户以一致的格式运行查询、编译报告、生成分析和检索数据。例如,许多公司依靠Microsoft Azure和AWS Redshift等数据仓库从他们的数据中生成商业智能。
了解有关数据湖和数据仓库之间差异的更多信息。
通过提供来自众多来源的统一数据视图,数据集成简化了商业智能(BI) 分析流程。组织可以轻松查看并快速理解可用数据集,以便获取有关当前业务状态的可操作信息。通过数据集成,分析师可以编译更多信息以进行更准确的评估,而不会被大量信息淹没。
与业务分析不同,BI 不使用预测分析来进行未来预测;相反,它侧重于描述现在和过去以帮助战略决策。数据集成的这种使用非常适合数据仓库,其中易于使用的格式的高级概述信息很好地对齐。
提取、转换、加载,通常称为 ETL,是数据集成中的一个过程,其中数据从源系统中提取并交付到仓库中。这是数据仓库将多个数据源转换为用于商业智能和分析工作的有用、一致的信息的持续过程。
获取多个数据源并将它们变成单一结构内的统一整体本身就是一项技术挑战。随着越来越多的企业构建数据集成解决方案,他们的任务是创建预先构建的流程,以将数据持续移动到需要去的地方。虽然这可以在短期内节省时间和成本,但实施可能会受到许多障碍的阻碍。
以下是组织在构建集成系统时面临的一些常见挑战:
有多种方法可以集成数据,具体取决于业务规模、满足的需求和可用资源。
数据集成工具有可能大大简化这个过程。您应该在数据集成工具中寻找的功能是:
在数据集成方面,商业智能、分析和竞争优势都处于危险之中。这就是为什么您的公司能够完全访问来自每个来源的每个数据集至关重要的原因。Talend Cloud Integration Platform 可帮助企业整合几乎来自任何来源的数据,并准备好使用任何数据仓库进行分析。
下载免费试用版 ,看看您的数据真正能做什么。