ANT324 | 升级数据仓库

ANT324 | 升级数据仓库

关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Data Warehouse Modernization, Redshift Capabilities, Data Sharing, Machine Learning, Real-Time Analytics]

本文字数: 2300, 阅读完需: 12 分钟

视频

导读

随着数据量的增长和获取更快洞察的需求增加,企业在传统数据仓库系统的性能、可扩展性和刚性方面面临着诸多挑战。在本次分享中,探索如何使用 Amazon Redshift 的新功能,通过访问所有数据(实时流数据、事务数据、半结构化数据、开放格式的数据甚至第三方数据)来升级数据仓库,并通过 PB 级 serverless 引擎在整个企业中实现一致共享。了解 Amazon Redshift 如何助您为各种用例和具有最苛刻要求的工作负载构建强大的分析和 ML 应用程序。

演讲精华

以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

会议开始了,作为亚马逊云科技的Analytics Specialist SA团队的资深经理,Neeraja Rentachintala介绍了她自己以及她的两位共同主讲人——亚马逊云科技的Analytics Specialist SA团队的资深经理Shruti Warlick和强生公司的约翰逊与詹森北美商业数据洞察组的总监Shyam Malhotra。

Neeraja强调,本次会议的主要目标是探讨亚马逊云科技和Amazon Redshift如何助力企业实现数据仓库环境的现代化。为了了解这一目标的具体情况,她向观众中的7900万客户进行了快速调查,询问他们中有多少已经是Redshift用户,以及那些正在寻求从本地系统迁移到云端的人。这两类人群都有很好的代表性。

她表示,会议的议程分为四个部分,总时长为45分钟。第一部分将讨论数据仓库现代化的驱动力;第二部分将重点介绍现代数据仓库的关键原则和用例;第三部分将简要概述Amazon Redshift支持现代化功能的概览;最后一部分,Shruti将进行一个长达15分钟的演示,而Shyam则将分享他关于Janssen公司数据仓库现代化之旅的10分钟演讲。

Neeraja指出,随着企业数据量的指数级增长,客户希望能够从所有数据中获取见解,并将其提供给组织内的数千名用户,包括那些没有数据库管理经验的用户。然而,传统的数据仓库系统通常复杂、僵化,且无法满足不断增长的数据和分析需求。因此,许多客户都在考虑使用亚马逊云科技来现代化他们的数据仓库。

尼尔亚认为,现代数据仓库应具备高性能的SQL功能,以支持商业智能和分析,这是传统数据仓库所做的事情。然而,现代数据仓库还需要能够扩展至PB级的数据量和数千个并发用户,包括通过自助服务功能支持非技术用户。此外,现代数据仓库还应提供新的使用场景,如在仓库数据上运行机器学习和对各种数据来源(如数据湖、运营数据库和流数据)进行分析。一旦数据可用,就应在整个组织内一致地共享。另一个新兴的使用场景是第三方合作——在仓库内消费外部数据集并将仓库数据作为服务对外共享。

尼尔亚解释说,自从2012年作为第一个云数据仓库推出以来,亚马逊Redshift团队一直在重塑数据仓储行业。例如,直接查询数据湖、查询运营数据库、数据库内机器学习以及并发扩展等创新功能使数万名客户能够从其所有数据中获得不同的价值。

Redshift的创新核心在于其卓越的价格性能。这得益于跨节点分布的数据处理、向量化查询执行、分区剪枝等高级查询优化以及ZSTD等高效数据编码。与Snowflake等替代品相比,Redshift提供了5倍的更好的价格性能,并在数据扩展到PB级别时保持了这一优势。对于具有许多小型查询的高并发工作负载,Redshift提供了与其他云数据仓库相比高达7倍的更好的价格性能。甚至在达到750TB规模时,Redshift在基准测试中每美元提供的性能超过竞争对手7倍以上。

亚马逊云科技的Redshift支持各种数据类型,包括半结构化的JSON/Parquet和空间地理数据。在今年re:Invent上,推出了诸如MERGE等新SQL功能以及更多分析函数,使得迁移过程更加顺畅。对于数据仓库的采用,安全性至关重要,因此Redshift提供了强大的安全性能,而且无需额外费用,包括加密、精细的行和列级访问控制以及本周推出的新功能如动态数据掩码等。

为了简化数据迁移过程,Redshift提供了多种工具,包括用于将TB级数据迁移到云地的数据库迁移服务、将现有模式映射到Redshift架构的转换工具,以及丰富的合作伙伴生态系统以提供帮助。例如,日本最大的移动提供商NTT DoCoMo已经从内部Teradata系统迁移到Redshift,成本降低了1/10,性能提高了10倍。如今,他们可以利用Redshift的PB级能力,在整个组织内扩展针对其7900万移动用户的数据分析。

另一个现代化的关键用例是为所有用户(包括非技术人员)提供数据分析能力。为了解决这个问题,Redshift去年推出了无服务器预览版,并在今年7月正式发布。它根据需求自动调整查询性能,以保持低于秒级的响应时间,而无需集群管理。无服务器负责补丁、升级、备份等工作,使用户可以专注于从数据中提取见解。他们只需支付使用的计算秒数,非常适合零星的工作负载。数千家客户,如领先制药公司Boehringer Ingelheim,已经使用无服务器轻松添加了新的分析用例并降低了运营成本。

通过使用亚马逊云科技的Redshift数据仓库,客户可以选择以数据仓库为中心的方法,将所有数据保存在Redshift中,利用其可扩展的托管存储。他们也可以选择混合的"湖屋"方法,将90%的原始数据以开放格式保存在亚马逊S3中,而将10%的转换数据保存在Redshift中。Redshift允许以高性能直接查询S3中的开放格式数据,并使用亚马逊EMR与其仓库数据进行连接。本周在re:Invent上推出的一项新功能使得可以从S3一键将数据摄入到Redshift中,而无需任何ETL操作,从而提供简单的混合工作流。Redshift与亚马逊云科技Glue数据目录和Lake Formation集成,以便轻松管理和保护混合数据。像纳斯达克这样的客户采取了这种混合方法,使用Redshift的直接查询功能分析存储在S3中的数PB金融数据。

现代数据仓库还应支持高级分析,如机器学习,这是通过Redshift与亚马逊SageMaker的集成来提供的。用户可以使用标准SQL执行从数据预备到模型训练和部署的整个机器学习工作流程。他们可以在SageMaker外部构建的模型上运行数据库内的推断,而无需移动数据。例如,Jobcase在Redshift中运行针对求职者数据的ML模型,避免了提取数据以在SageMaker上运行批量评分然后再重新导入的复杂性。他们可以直接在Redshift中进行数百万的预测。

除了ML之外,Redshift现在还允许与Apache Spark集成,以简化并在仓库数据上加速Spark工作负载。EMR和Glue的包装集成使用户能够直接在Redshift数据上使用DataFrames和Spark SQL构建Spark应用程序,而无需移动数据。

客户越来越希望获得实时分析能力,以了解业务驱动因素并及时采取行动。Redshift与亚马逊云科技数据服务集成以实现实时功能。此次re:Invent看到了流数据摄入的正式发布,允许将来自Kinesis和MSK Kafka的流数据摄入到Redshift中,使其在几秒钟内可供分析。这只需通过在流式源上创建物化视图即可实现。早期客户如Zim已经使用此功能将他们的风险分析延迟从按小时批处理减少到接近实时。

为了实时分析运营数据,Redshift在两年前引入了Aurora及其他关系数据库的联邦查询功能。如今,通过与Aurora的更紧密集成,实现了将Aurora数据近乎实时地复制到Redshift中。这使得分析师可以将来自多个Aurora集群的实时数据整合到Redshift中进行分析。数据从Aurora持续复制到Redshift,仅需数秒。

数据一旦聚合到Redshift中,在整个组织内无缝共享对现代数据架构至关重要。Redshift的数据共享功能已推出近一年,允许在不移动任何数据的情况下跨Redshift集群实时共享数据。这可以在不同的账户和区域之间运行,以实现灵活、分布式的数据网格。本周宣布与Lake Formation的集成允许通过其治理功能集中管理数据共享。像Fannie Mae这样的客户使用数据共享来支持跨业务部门的服务式访问和协作,拥有数十个Redshift集群和数PB的数据。

Redshift与亚马逊云科技Data Exchange(一个基于数据共享技术构建的交换平台)集成。这使得Redshift用户可以轻松订阅发布在Exchange上的第三方数据集,并将其与自己数据结合进行分析。数据共享为第三方合作的双向集成提供了动力——消费外部数据并将仓库数据对外发布给客户和合作伙伴。

Shruti通过一个医疗保健示例展示了这些现代数据仓库功能的一些应用。她将从不同来源(包括Amazon S3和一个运营的Aurora MySQL数据库)将数据加载到Redshift,将其合并,使用SQL和SageMaker构建机器学习模型预测医院等待时间,启用动态数据掩码以保护敏感的病患数据,并向最终用户展示见解——所有这些都在使用Redshift的功能。

杨沙·马尔霍特拉(Shyam Malhotra)来自杨森制药公司(Janssen Pharmaceuticals),分享了他们在Redshift上的旅程。随着数据量、用户数量的增长,对自助服务和实时洞察的需求以及成本的上升,他们需要将数十个传统的Teradata和Oracle数据仓库进行现代化改造。自2015年起,他们开始使用Redshift构建云数据基础,并通过优化成本,如采用RA3实例类型等方式进行了优化。多年来,他们已经将100多个传统系统迁移到Redshift,从而减少重复数据和延迟。

关键业务优势包括计算和存储灵活性,支持20倍的数据增长至超过750TB,数据共享推动创新并缩短团队间数据传输延迟,通过并发扩展改善工作负载SLA的集群管理,以及简化业务用户自助服务的无服务器技术。总体而言,他们在使用Redshift现代化后,成本降低了30%,洞察力速度提高了50%。

他们的下一步是扩大无服务器技术在分析领域的应用,使用Data Exchange加速新数据的上线,并在组织内部更广泛地分享数据。总之,Redshift使杨森制药能够支持业务增长,降低成本,更快地提供洞察力,并更轻松地进行创新。

尼拉贾(Neeraja)以提供实用的Redshift入门资源结束了演讲,并强调了迁移项目。此次会议展示了Redshift如何通过关键功能如可扩展性、高级分析集成、混合工作流程、数据共享和第三方数据集成等,为下一代数据仓库提供动力。Redshift允许组织在更低成本下支持大量数据量的多样化分析用例,同时实现创新和协作。客户已经看到了从传统的预先建设的数据中心向现代Redshift云数据仓库迁移的巨大好处。

下面是一些演讲现场的精彩瞬间:

Shruti Warlick,作为亚马逊云科技SA团队的高级经理分析专家,以及Shyam Malhotra,作为强生公司的约翰逊与约翰森北美商业数据和见解部门的总监,他们在各自的领域都有着丰富的经验。

ANT324 | 升级数据仓库_第1张图片

这两位业界专家分别代表了他们所在公司的合作伙伴关系。

ANT324 | 升级数据仓库_第2张图片

亚马逊云科技通过其深度集成的服务,如Redshift、Aurora和RDS数据库,直接在企业交易数据的基础上实现了分析功能的优化。

ANT324 | 升级数据仓库_第3张图片

其中,Redshift的数据共享功能能够在Redshift数据仓库之间实现实时、交易式一致的数据共享,而无需进行数据移动或复制。

ANT324 | 升级数据仓库_第4张图片

通过与亚马逊云科技Lake Formation的集成,数据共享功能实现了对共享数据的集中访问控制和治理。

ANT324 | 升级数据仓库_第5张图片

此外,Redshift还与亚马逊云科技Data Exchange进行了集成,使得在轻松共享第三方数据的同时,无需进行数据移动。

ANT324 | 升级数据仓库_第6张图片

总结

首先,传统的数据仓库往往复杂且僵化,难以满足不断增长的数据和分析需求。而迁移到云端并使用Amazon Redshift能带来更好的性能、可扩展性和成本效益。

其次,现代数据仓库支持新的使用场景,如机器学习、实时分析和第三方数据共享。Redshift提供了诸如数据库内机器学习、流处理摄取和与亚马逊云科技Data Exchange集成等功能。

最后,Redshift提供了一系列简化数据仓库现代化改造的功能,如无服务器部署、基于RA3的可扩展存储和数据在集群和账户间共享。这有助于降低运营开销和提高洞察力获取速度。

总的来说,Redshift使企业能够构建敏捷、可扩展且具有成本效益的现代数据仓库。通过利用Redshift的功能,公司可以从其数据中获得更多价值,从而推动创新和发展。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

ANT324 | 升级数据仓库_第7张图片

你可能感兴趣的:(aws)