亚马逊云科技re:Invent 2022:让数据治理也像拧水龙头一样简单

re:Invent 2022落下帷幕,作为全球云计算产品和技术的风向标,每年的re:Invent大会带给业界的思考和能量仍将产生深远影响。亚马逊云科技在各领域的重塑将赋能各行业探路者,共赴科技创新的星辰大海。

从云计算概念产生到今天,我们记得最清楚的一句话是:“云计算就像水电煤一样,无处不在,随时可用。”事实上,多年以来,我们一直享受云计算带来的种种便利,但随着企业数字化转型的不断升入,从追求“效率”到追求“效益”,企业也从最初的“上云”阶段过渡到追求“用数”收获阶段,亚马逊云科技在2022 re:Invent全球大会上发布的新服务和新功能,大部分都集中在数据方面。作为全球云计算的创始者和引领者,亚马逊云科技如此密集地发布数据相关服务,这说明企业“用数”,面临着前所未有的紧迫局面。

一方面,数据量越来越多。IDC 预测,仅在 2022 年,人类就创建超过 97 个 ZB的数据。这个数据有多夸张?从历史上到 2012 年,人类生产的所有印刷材量的数据量是 200 个 PB ,200 个 PB 仅仅是 2022 年这一年所创建数据量的 50 万分之一。

如果将数据保存在 1 TB 的硬盘里面,存放 200 PB 的数据,把所有的硬盘连着起来,约等于 2000 米,也就是一亩农田的周长,而存放 97 个 ZB数据的所有硬盘连着摆放起来,是地球与月亮距离的 2.5 倍,所以,可以说从200个 PB 到 97 个ZB,是一亩农田到星辰大海的距离。


另一方面,数据量的增加并不等于数据带来价值的增加。艾森哲最近的研究发现,68%的公司无法从数据中实现可以量化的价值,因此,成为数据驱动型企业并不容易。

在2022 re:Invent全球大会的主题演讲中,亚马逊云科技CEO Adam Selipsky以浩瀚星球类比数据王国。他指出,就像我们不断寻找新的方法来理解宇宙空间的浩瀚和复杂,数据的庞大和复杂也需要新的工具,将不断扩展的信息世界转化为洞察。这些工具需要有最好的性价比,需要最多的功能以支持所有用例,需要可扩展的工具以便处理如此庞大且不断增长的数据量。

亚马逊云科技re:Invent 2022:让数据治理也像拧水龙头一样简单_第1张图片

当企业拥有所有这些工具时,就可以构建一个完整的端到端数据策略,涵盖所有数据类型、用户需求和工作负载。

亚马逊云科技大中华区产品部总经理陈晓建表示,“从本次re:Invent发布的特性看未来技术演进的方向,非常明显的一点就是数智融合,也就是如何打造一个端到端的数据服务战略。”

企业有越来越多的应用上云,产生了大量的数据,如何将这些数据利用起来,将这些数据跟企业本地、企业外部的数据打通,实现数据驱动的企业决策,成为有用户关心的问题,对于以用户为中心的亚马逊云科技来说,自然也是关注的焦点。

全新数据管理服务Amazon DataZone

盘活企业数据“内循环“

re:Invent 2022亚马逊云科技发布全新数据管理服务Amazon DataZone,帮助客户在整个企业内对数据进行编目、发现、共享和治理。

首先,让管理员可以使用精细的控制工具,管理数据访问权限,确保数据不被滥用、不被非正常使用。这样,整个企业的工程师、数据科学家、产品经理、分析师和业务用户就都可以轻松访问整个企业的数据,挖掘数据价值。

Amazon DataZone覆盖的数据包括企业存储在亚马逊云科技的数据,客户本地数据和第三方来源的数据,对所有这些数据进行编目、发现、共享和治理。

"良好的治理是整个组织都可以访问数据的基础,但我们经常听客户说,在使数据可发现和保持控制之间很难取得适当的平衡。"亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian表示,"借助 Amazon DataZone,客户可以使用单一服务在强大的治理控制和简化的数据访问之间取得平衡,从而轻松查找、组织数据,使用数据进行协作。Amazon DataZone在整个企业内解放了数据的束缚,每个员工都可以帮助推动获取新的洞察,最大限度地发挥数据价值。"

亚马逊云科技re:Invent 2022:让数据治理也像拧水龙头一样简单_第2张图片

目前,Amazon DataZone与Amazon Redshift、Amazon Athena和Amazon QuickSight等亚马逊云科技数据分析服务进行了集成,数据消费者能够在其数据项目的情境中访问这些服务,他们的数据在这些服务中自动可用、无需单独的登录凭证。Amazon DataZone还提供应用程序编程接口(API)以与自定义解决方案或与DataBricks、Snowflake和Tableau等合作伙伴进行集成,因此,客户可以轻松发布、搜索和使用其所有的数据资产。

福克斯公司是一家领先的内容制作商和发行商,旗下拥有体育、新闻和娱乐等品牌。"在福克斯,统一所有的业务数据,打造安全、可信、规模化的数据发现、发布、访问和共享能力至关重要。我们希望业务团队能够安全地发现和共享数据,无需做深入的技术工作。"福克斯公司数据基础设施副总裁Alex Tverdohleb表示,"Amazon DataZone有助于我们简化、自动化数据发现和共享,保持适当的数据治理,因此我们可以确保在正确的时间使用正确的工具访问数据。"

全新分析服务Amazon Clean Rooms

打通合作伙伴数据“外循环“

re:Invent 2022,亚马逊云科技推出全新分析服务Amazon Clean Rooms,帮助客户创建数据清洁空间以与业务合作伙伴协作,在产生新洞察的同时保护底层原始数据。它的作用是打通企业外部合作伙伴的数据。

在很多行业,例如广告业,企业需要利用外部业务合作伙伴的数据来补充自身数据,以便更好地开展自己的业务。在广告行业,品牌厂商、媒体和广告公司需要使用存储在多个渠道和应用程序中的数据集进行协作,提高市场活动的相关性,更好地与消费者互动。同时,这些公司也需要保护消费者敏感信息,减少或消除原始数据的共享。为实现这一目标,公司通常必须向合作伙伴提供用户数据的副本,并依靠合约防止数据滥用。

借助Amazon Clean Rooms,客户可以在几分钟内创建一个安全的数据清洗空间,只需点击几下即可开始分析集成的数据集,与亚马逊云科技之上的其它公司协作,无需将数据移出其亚马逊云科技环境或加载到其他平台,生成与广告营销活动、投资决策、临床研究等相关的独特洞察。

当客户运行查询时,Amazon Clean Rooms会在数据所在的位置读取数据并应用内建分析规则帮助保持对数据的控制。此外,Amazon Clean Rooms提供了多种可配置的数据访问控制,包括查询控制、查询输出限制和查询日志,允许公司自定义针对每个参与方的查询进行限制。Amazon Clean Rooms还包括高级加密计算工具,即使在处理查询时也能保持数据加密,以符合严格的数据处理政策。

“Amazon Clean Rooms帮助客户及其合作伙伴更好地分析和协作处理他们在亚马逊云科技上的数据。随着Amazon Clean Rooms的推出,我们使多家公司能够更轻松、更简单、更安全地共享和分析组合数据集,以生成他们无法独自完成的新洞察。使用Amazon Clean Rooms,客户可以协作完成一系列任务,例如更有效地生成广告活动洞察和分析投资数据,同时提高数据安全性。”。亚马逊云科技应用程序副总裁Dilip Kumar表示。

Zero-ETL减少开发者繁复劳动

加速数据流通

数据流通才有价值,不能移动和共享的数据只能成为数据沼泽,而移动数据势必需要各种 ETL 操作。

ETL是Extract-Transform-Load的缩写,指数据的提取、转换和加载,是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。

企业在许多不同的地方拥有数据,如果要连接各种数据库、数据湖进行数据分析,这对很多企业来说是一项重大挑战。

当前,许多企业分析交易数据的解决方案分为三部分:用关系数据库存储数据,用数据仓库分析数据,用数据管道在关系数据库和数据仓库之间提取、转换和加载(ETL)数据。数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码,并且持续管理基础设施以确保其按需扩展。一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。

Amazon Aurora zero-ETL与Amazon Redshift 集成的功能助力客户近乎实时地分析 PB 级交易数据,无需自定义数据管道。这意味着亚马逊打通了 Aurora 数据库和 Redshift数据仓库,让用户不用执行 ETL 就能进行同步,且不会相互影响各自的正常运行。

Swami表示,"今天发布的新功能帮助我们的客户在亚马逊云科技上迈向一个‘Zero-ETL的未来',减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大,复杂度有多高,通过为客户消除 ETL 和其它数据迁移任务,我们都能助力客户专注于分析数据,面向业务获取新的洞察。"

结  语

云计算在“用数”阶段的本质是“数据驱动企业创新“,但数据具备海量、多元等一些列复杂的属性,同时还受制于”使用权限“、”安全“、”组织架构“等多重因素,事实上,让”数据“产生效益变得异常艰难,可以肯定得是,亚马逊云科技作为云计算得探路者,始终站用户角度解决实际问题,亚马逊云科技正在重塑整个数据之旅,从数据的摄取、存储、查询,到分析、可视化和运行机器学习,以及端到端治理,使用户更容易释放数据的价值,这是件令人兴奋的事。

你可能感兴趣的:(云计算)