用于数据仓库现代化的云原生数据流的案例

数据仓库现代化,从使用 Stitch 的批处理 ETL 到使用 Kafka 的流式 ETL

大多数组织的用例简单且标准:提取、转换和加载 (ETL) Salesforce 数据到 Google BigQuery 数据仓库,以便企业可以使用这些数据。但它比听起来更复杂。

组织通常依靠第三方 ETL 工具定期将数据从 CRM 和其他应用程序加载到他们的数据仓库。这些批处理工具在 Salesforce 中捕获业务事件与它们可用于消费和处理之间引入了延迟。批处理工作负载通常会导致 Salesforce 报告和内部仪表板之间存在差异,从而导致对数据完整性和可靠性的担忧。

最初使用的 Talend 的 Stitch 批处理 ETL 工具。旧架构如下所示:

用于数据仓库现代化的云原生数据流的案例_第1张图片

 

批量 ETL 和中间的 3rd 方工具的后果导致信息更新不足和不一致。

现在将流处理功能构建到内部数据仓库管道中。利用其自己的完全托管的 Confluent Cloud 连接器(在本例中为 Salesforce CDC 源和 BigQuery 接收器连接器)、用于数据治理的 Schema Registry 以及用于可靠流 ETL 的 ksqlDB + Kafka Streams,以将 SFDC 数据发送到 BigQuery。这是现代化的架构:

用于数据仓库现代化的云原生数据流的案例_第2张图片

从本地数据库到多个云原生数据湖

Shippeo 为物流供应商、托运人和承运人提供实时和多式联运的可视性。它的软件使用自动化和人工智能来分享实时见解,实现更好的协作,并释放您供应链的全部潜力。该平台可以即时访问每次交付的预测性实时信息。

Shippeo 描述了他们如何将传统数据库(MySQL和PostgreSQL)和云原生数据仓库(Snowflake和BigQuery)与Apache Kafka和Debezium集成。

这是利用“同类最佳”方法进行数据仓库和分析的云原生企业架构的一个很好的例子。Kafka 将分析工作负载与事务系统分离,并为慢速消费者处理背压。

Sykes Cottages:采用 Confluent Cloud、Kafka Connect、Snowflake 的完全托管的端到端管道

Sykes Holiday Cottages 是英国领先且发展最快的独立度假别墅租赁机构之一,代表英国、爱尔兰和新西兰的 19,000 多间别墅。

客户在网络上的体验是重中之重,也是保持竞争力的一种方式。目标是为客户提供完美的度假小屋体验,并在沿途的每个阶段享受乐趣。获得数据管道来推动这项创新至关重要。数据仓库现代化和数据流支持通过数据驱动的方法进一步创新 Web 体验的新方法。

DoorDash:从多管道到雪花集成的数据流

即使是数字原住民——他们在云中开始他们的业务,他们自己的数据中心没有遗留应用程序——也需要对企业架构进行现代化改造,以改进业务流程、降低成本并为其下游应用程序提供实时信息。

构建多个试图实现类似目的的管道是成本低效的。DoorDash 使用 Amazon SQS 和 Amazon Kinesis 等云原生 AWS 消息传递和流系统将数据摄取到 Snowflake 数据仓库中:

你可能感兴趣的:(数据仓库,云原生)