Mesa: GeoReplicated, Near RealTime, Scalable Data Warehousing

Mesa:地理复制的,近实时的,可扩展的数据仓库

Ashish Gupta, Fan Yang, Jason Govig,Adam Kirsch, Kelvin Chan

Kevin Lai, Shuo Wu, Sandeep GovindDhoot, Abhilash Rajesh Kumar, Ankur Agiwal

Sanjay Bhansali, Mingsheng Hong,Jamie Cameron, Masood Siddiqi, David Jones

Jeff Shute, Andrey Gubarev,Shivakumar Venkataraman, Divyakant AgrawalGoogle, Inc.

 

摘要:

    Mesa是一个高度可扩展分析数据仓库的系统,存储了与谷歌互联网广告业务有关的关键测量数据。Mesa可以满足一系列复杂和有挑战性的多用户和系统的需求,包括对大数据查询量近实时的数据摄取和查询的能力以及高可用性、可靠性、容错性和可伸缩性。确切的说,Mesa处理PB级的数据,每秒处理百万计的行更新,每天从数万亿的数据中提供十亿的查询。Mesa地理复制横跨多个数据中心,并在低延迟的情况下提供一致的,可重复的查询答案,即使整个数据中心失效,它也能正常工作。本篇论文介绍了Mesa系统,报告它的所实现的性能和规模。

 

1、简介

        谷歌在多个渠道上运行着广泛的广告平台,每天为全球的用户提供几十亿条广告。于每条广告相关联的详细信息,比如定位标准,展示和点击次数等,都被实时的记录、处理。在谷歌,针对不同的用例,这些数据被广泛的使用,包括报告,内部审计,分析,计费和预测。通过一个复杂的前端交互服务,广告商能够精细的看到他们的广告活动的表现,这个服务被发行上线,并且可以按需查询底层数据存储区。谷歌的内部广告服务平台实时地使用这些数据来确定预算和以前广告的效果,由此提高现在和将来广告投放的关联性。由于谷歌广告平台持续拓展,内部和外部客户要求更深入地了解他们的广告活动,更详细和细粒度的信息的需求导致了数据的巨大增长。这种数据规模和业务关键性给处理、存储、查询带来了技术上和操作性上的挑战。

        这种数据存储的要求有:

        原子更新:单个用户行为可能会导致多个关系型数据级更新,影响成千上万的一致性视图,在一组维度中(例如广告商和国家)定义了一组指标(例如点击和成本)。如果只有部分更新被应用,它则不能查询系统。

        一致性和正确性:考虑到商业因素和法律原因,这个系统必须返回一致的,正确的数据,我们需要强有力的一致性和可重复的查询结果,即使一个查询涉及到多个数据中心。

        可用性:此系统必须没有任何单点失败。不能够有任何预期或非预期的停工维护或故障,包括影响整个数据中心或地理区域的中断。

        近实时更新吞吐量:系统必须能够支持持续的更新,包括新增数据和更新数据和每秒数百万行的更新。这些更新应该在几分钟内就可以被不同视图和数据中心查询到。

        查询性能:这个系统必须满足延迟敏感用户服务现场客户的低延迟要求和批量提取用户的高吞吐量要求。总的来说,系统必须支持一次查询的延迟每秒不超过1%,每天整体吞吐量为万亿次查询。

        可扩展性:系统必须能够随着数据和查询量的增加而扩展。比如,它必须支持万亿条记录和PB级数据。甚至在这些参数显著增加的情况下,更新和查询性能必须保持。

        在线数据和元数据转换:为了支持新功能的退出或更改现有数据的粒度,客户往往需要转换数据架构或现有数据的修改。这些变化不能够干扰正常的查询和更新操作。

 

 

(未完待续)

你可能感兴趣的:(Mesa: GeoReplicated, Near RealTime, Scalable Data Warehousing)