Uber实战案例：基于Alluxio实现Presto缓存

如上图所示，在Uber，所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如，运营团队在Dashboard等服务中大量使用了Presto，而UberEats和市场团队也依赖于这些查询结果来确定价格。此外，Presto也在Uber的合规部、增长营销部门、ad-hoc数据分析等场景下使用。

上图展示了Uber内部的一些重要数据。总的来说，目前Presto在Uber内部有12K的月活跃用户，每天要处理400K的查询并且要处理超过50PB的数据。在基础设施方面，Uber有2个数据中心，部署Presto在大约6千个节点和14个集群。

Uber的Presto架构如上图所示。

最上层是UI/Client层，这其中包括了一些内部的Dashboard、Google Data Studio、Tableau等工具。此外，我们还有一些后台服务，使用了JDBC或其他的内部查询引擎来与Presto进行通信。

Proxy层，这一层负责从每一个Presto集群的coordinator拉取数据，以获取query数量、task数量、CPU和Memory使用率等信息，我们也基于此判断应该将每个query调度到哪一个集群，来提供load-balancing和query-gating服务。

在底层，就是多个Presto集群，它们与底层Hive、HDFS、Pinot等进行通信。不同plugin或不同的数据集之间可以进行join操作。

此外，如图中的左右两侧所示，对上述架构中的每一层，我们还有：

内部的监控服务

基于Kerberos Security提供的Security broker

我们的workloads可以大致分为两类：

Interactive：由数据科学家和工程师发送的query

Scheduled：主要是Batch query，包括Dashboard查询、ETL查询等

接下来，我们简单介绍一下我们关于业务上云的思考。

在过去的几年中，Uber的团队一直在思考如何上云和何时上云的问题，以及应该以怎样的布局（layout）来与云进行交互。这里以“what-how-why”模型列出了一些我们认为值得讨论的点。

● What：我们有多种多样的应用布局，比如，应用方面，我们有BI等应用；计算引擎方面，我们不仅有Spark、Presto等。在云这个场景下，我们还有许多云原生的选择；存储方面，有gcs、S3、甚至是HDFS等多种选择。

● Why：对我们来说，上云最重要的一个动机是，我们希望提高cost efficiency，更好地帮助硬件设施来实现资源弹性扩展。同时，我们也希望能提供高可用、可扩展性、可靠性。

● How：如何上云，这其中也有很多要点值得讨论。1.云能提供很多原生的特性，那么我们就需要考虑，这些特性如何才能与开源组件保持相互一致；2.不同规模下的性能如何，Uber维护了一个非常大型的数据湖，因此性能数据对我们和客户来说都是非常重要的；3.我们也很重视云上的Security和Compliance问题；4.我们也可以使用云提供的一些原生的特性，来弥补我们自己的“技术债”（Tech Debt）。

上图展示了我们对于Presto上云的规划。

基于这样的架构，我们的解决方案可以扩展到不同云服务厂商中。这个目前只是作为我们的长期规划和愿景，还处在非常初期的实现阶段。

总体上，我们有Cloud集群和PROD集群。如图中右下角所示，我们希望大部分的数据还是在onPrem HDFS上。图中偏左的蓝色箭头代表了我们做的一些预先测试，我们在HDFS之上不加任何的缓存进行了一些实验，结果表明，网络流量非常高，从而带来了巨大的开销。因此，我们设想能使用云提供的服务，比如GCS或S3，来提供类似于L2 Cache的功能。我们希望能将数据集中的一些高访问频率的重要数据放在这些“云上的L2 Cache”中，而对于云上的每个Presto集群，我们计划利用本地的SSD来缓存一些数据，以提升性能。

总体来说，Alluxio的Cache Library与Alluxio Service的运行方式很不同。Alluxio Cache Library是在Presto worker内部的运行的本地缓存。我们在默认的HDFS client的实现之上封装了一层，当读取HDFS的API被调用时，系统首先会查看缓存空间，以知晓这是否为一次缓存命中（cache hit or miss）。如果缓存命中，则从本地的SSD中读取数据；否则，将从远端的HDFS中读取并将数据缓存在本地，这样在下一次读取时，我们就能从本地读取。具体实现时，我们将文件在HDFS中的路径作为key。这一过程中，缓存命中率对于整体的性能也有着非常重要的影响。

此外，为了判断缓存是否在Presto worker中，我们还利用了Soft Affinity Scheduling。简而言之，这一功能可以确保将同样的key分发到同一个worker上，这样我们就可以利用本地的library来确认每一次的数据读取是否命中了缓存。我将在下文对此进行详细介绍。

Uber的数据湖是非常大的，我们每天处理50PB的数据，而Uber的数据湖绝对超过了EB级别。同时，我们有各种各样的表，比如Hudi表、Hive ETL等。我们的数据大部分是按照日期的进行分区的。在Hudi中，由于Hudi会对文件的每个分区进行增量更新，因此同一个文件可以有不同的版本；Hive ETL会生成大量的Staging目录，在新的文件分区产生之后，这些staging目录就失效了。因此，随着时间推移，会有大量的冗余文件和文件更新，我们需要对这一情况进行处理。

关于缓存命中率。我们每天都有大于3PB的非重复数据（distinct data）访问，并且有约10%的频繁访问数据(frequently accessed data)和约3%的热访问数据（hot accessed data）。针对频繁访问数据和热访问数据，我们希望能构建一个图，来反映有多少不重复的表访问(distinct table access)和联合表访问(joint table access)。

针对超大数据量所带来的挑战，我们尝试构建一个过滤器布局(filter layout)——只缓存我们需要的数据。一开始，我们只会将热访问数据放入缓存，在此之后，我们逐步扩大缓存空间。

上面的图表展示了，在Presto的一次扫描或投影的查询中，由于有些partition/split/task可能非常大，因此有些HDFS节点的延迟甚至达到了4至5秒。在生产环境中这一延迟数据还会更大。这就使得数据节点延迟产生了随机性（random latency）。这会给我们生产环境中的查询带来严重的影响。

如果我们使用了缓存，HDFS缓存的数据就如上图所示。如果缓存能够命中，我们就能取得更低的、更稳定的延迟数据。实验中，我们尝试使用本地缓存来取得百分百的缓存命中，来取得一个非常稳定的延迟性能。另外，在上述的实验过程中，我们也修复了一个Namenode listing相关的bug。

目前在Presto中，Soft Affinity Scheduling是基于一个简单的“取模”算法来实现的，这一做法的坏处是，如果出现了节点的增删，那么整个缓存的键空间都需要进行更新。针对这一问题，现在已经有了一种开源的解决方案，如果预定义的节点很多而出问题的节点很少的话，这一方案可以很好地解决该问题。

但是在Uber，我们遇到了新的问题：在我们集群中，节点的数量不是固定的。所以我们引入了基于一致性哈希的调度策略。我们一共有400个节点，并为每个节点分配10个虚拟节点。因此所有缓存的键就分布在一个有4000个节点的一致性哈希环上。关于这一改进机制，我们已经向开源社区提交了一个pull request，感兴趣的朋友可以试用此功能。

初期的测试已经完成，而且数据很不错。结果表明，如果数据在缓存中，对于那些依赖于SFP性能的查询而言，它们的性能可以得到大幅度提升。我们目前正在进行的工作包括：

工作一：在TPCDS benchmark上进行sf10k测试；

工作二：尝试从历史数据中分析表或分区的访问模式，找出最热的数据，从而能更好地设置缓存过滤器；

工作三：集成一些Dashboard和监控功能。

其一，是关于所谓的“stale cache”的问题，即缓存空间中可能存储了旧的数据。尽管我们将缓存数据放在了Presto的本地SSD中，但真正的数据实际上存放在GCS或者HDFS等，这些数据可能被其他人修改。比如，在使用Hudi table情况下，我们经常可以看到，数据文件的“最后修改时间戳”一直在变化。因此，如果我们缓存了旧的数据，这就会导致查询的结果不准确。更坏情况下，因为新旧的page被混合在一起，当Presto传送Parquet或者ORC文件时，Presto中可能出现异常（Exception）。

其二，每天从HDFS中读取的不重复数据可能很大，但我们没有足够的缓存空间来缓存所有数据。这就意味着在Uber的缓存过滤器之外，Alluxio需要eviction或allevation策略。此外，我们还可以引入quota管理。我们为每个table设置一个quota，对于那些热访问的表，我们设置一个更大的quota，而对于冷访问的、不需要缓存的表，我们可以设置一个非常小的甚至是0的quota。

其三，尽管我们已经在本地缓存中存放了元数据，但它仅仅在内存中而不在磁盘中。这就导致，当服务器启动时，无法恢复元数据。比如，Presto的服务器宕机重启后，服务器可以重新获取到数据，但是其中没有元数据，这可能导致quota管理被破坏。

因此，我们提出了文件级元数据（File Level Metadata），其中保存了最后修改时间和每个数据文件的scope。我们需要将这些数据保存在磁盘中，使得Presto worker能在启动时获取这些数据。

引入这种元数据后，数据就会有多个版本（multiple versions of the data）。也就是说，数据被更新后，就会生成一个新的时间戳，对应于一个新的版本。因此我们将创建一个新的文件夹来与这个新的时间戳相对应，这个文件夹中保存了新的page，与此同时，我们会尝试将旧的时间戳删除。

如上图左侧所示，我们有两个文件夹，对应于两个时间戳：timestamp1和timestamp2。通常来说，在系统运行时，不会同时有两个时间戳，因为我们会直接将旧的timestamp1删除而只保留timestamp2。但是，在服务器繁忙或高并发的情况下，我们可能无法准时将时间戳删除，这种情况下，我们就可能会同时有两个时间戳。除此之外，我们还维护一个元数据文件，其中以protobuf格式的保存了文件信息，而且保存了最新的时间戳。这样就能保证，Alluxio的本地缓存只会从最新的时间戳中读取数据，服务器重启时，也从元数据文件中读取到时间戳信息，从而能正确地管理quota和最后修改时间等信息。

由于Alluxio是一个通用的缓存解决方案，所以它依然需要计算引擎（即Presto）来将元数据传递给它。因此，在Presto一侧，我们利用了HiveFileContext。每一个Hive表或Hudi表都有一个数据文件，而Presto会为每个数据文件创建一个HiveFileContext。Alluxio在打开Presto文件时，就会利用这一信息。在调用openFile时，Alluxio创建一个新的PrestoCacheContext实例，其中保存了HiveFileContext，也有scope（包含四个等级：database、schema、table、partition）、quota、cache identifier（即文件路径的md5值）等信息。我们会将这个cache context传递到我们的本地文件系统中。这样，我们就可以在Alluxio中进行元数据管理和指标收集等工作。

除了从Presto传递数据到Alluxio，我们也可以向Presto调用一些回调函数(callback)。这样，在执行查询操作时，我们就可以知道一些内部消息，比如多少字节数据读取命中了缓存/多少字节的数据是从外部HDFS存储中读取的。

如上图，我们将含有PrestoCacheContext的HiveFileContext传递给本地的缓存文件系统（LocalCacheFileSystem），之后本地的缓存文件系统会向CacheContext调用一些回调函数（IncremetCounter），然后这个回调的调用链会继续进行，到HiveFileContext中，再到RuntimeStats。在Presto中，执行查询时就是利用RuntimeStats来收集指标信息，因此我们就可以在这里进行一些聚合操作。

在此之后，我们就可以在Presto的UI或是JSON文件中看到这些本地缓存文件系统相关的信息。有了上述流程，我们就能让Alluxio和Presto紧密联系并工作在一起。在Presto端，我们有了更好的统计数据；在Alluxio端，我们对元数据有了更清楚的认知。

上文提及的一些工作实际上还在进行中。在此之后，我们还计划进行以下三方面的工作：

Uber实战案例：基于Alluxio实现Presto缓存

你可能感兴趣的:(Uber实战案例：基于Alluxio实现Presto缓存)