关键要点
- 在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标,并提供用于数据可视化的仪表盘。
很多行业都在使用 Apache Spark 构建大数据处理应用程序。Spark 为此类应用程序提供了隐式数据并行性和容错性。这类应用程序可以是基于流式处理、批处理、SQL 数据集处理或机器学习。Spark 通过快速的内存数据处理引擎在集群中运行这些应用程序,并在数据管道中转换和处理大量数据。持续可靠地运行这些应用程序是一项具有挑战性的任务,需要一个良好的性能监控系统。随着 Spark 被各行各业广泛采用,性能监控、度量分析和调优 Spark 应用程序的问题越来越受到关注。Uber 最近开源了他们的 JVM Profiler。在本文中,我们将讨论如何扩展 Uber JVM Profiler,并将其与 InfluxDB 和 Grafana 一起用于监控和报告 Spark 应用程序的性能指标。
Spark 应用程序性能监控系统
要最大限度地利用可用资源并尽早发现可能存在的问题,需要一个性能监测系统。监控系统需要为运行中的系统提供综合性的状态报告,并在组件发生故障时发送警报。当我们需要在 Spark 集群中运行大规模分布式系统以及 Hadoop 生态系统的不同组件时,对细粒度性能监视系统的需求就变得不可或缺。Spark 应用程序在共享资源上执行数据的分布式处理,这使得 DevOps 团队的工作变得非常复杂。DevOps 团队必须有效地管理可用资源,并密切监控系统的不同组件,以避免出现宕机。性能监控系统提供的完整堆栈可见性有助于 DevOps 团队了解系统行为,并对生产问题做出快速反应。这确保了 Spark 应用程序的可靠性、可伸缩性和性能。
针对这种复杂系统的理想性能监控系统必须具备以下特性:
在本文中,我们将使用开源工具和技术开发一个性能监控系统。Spark 应用程序性能监控系统的设计有三个目标:
Apache Spark 为指标提供了一个 web-ui 和 REST API。Spark 还提供各种接收器,包括控制台、JMX、Servlet、Graphite 等。还有一些其他可用的开源性能监控工具,如 dr-elephant、sparklint、prometheus 等。这些工具提供的指标主要是服务器级别的指标,其中有一些也提供应用程序的信息。
Uber JVM Profiler 同时收集服务器级别和应用程序的度量指标。它可以从驱动程序、执行程序或任已 JVM 中收集所有指标(cpu、内存、缓冲池等)。它可以在不修改现有代码的情况下对其进行增强,因此可以收集有关方法、参数和执行时间的指标。为了存储用于时序分析的度量指标,我们将使用 InfluxDB,它是一个功能强大的时序数据库。我们将扩展 Uber JVM Profiler,并为 InfluxDB 添加一个新的 Reporter,这样就可以通过 HTTP API 保存度量数据。在图形化的仪表盘方面,我们将使用 Grafana,它将从 InfluxDB 查询指标数据。
以下是用于 Spark 应用性能监控系统的工具和技术的详细信息。
Uber JVM Profiler
Uber JVM Profiler 是一个分布式的分析器,它从集群的不同节点收集性能指标和资源利用率指标。它作为 Java 代理与应用程序一起运行,并收集不同的度量指标。它将这些指标发布给指定的 Reporter,以进行进一步的分析和报告。Uber JVM Profiler 是为分析 Spark 应用程序而开发的,但它也可以用于分析任何基于 JVM 的应用程序。Uber JVM Profiler 有三个主要组件:
Profiler:Uber JVM Profiler 内置了以下的 Profiler:
Transformer:这个 Class File Transformer 用于增强 Java 方法的字节码。
Reporter:可用的 Reporter 包括:
有关 JVM Profiler 的更多详细信息,请参阅 Uber 的博文。
InfluxDB 和 Grafana
InfluxDB:InfluxDB 是一个开源的时序数据库,用于存储和查询大量带时间戳的数据。这些数据可以是物联网传感器数据、实时分析数据、应用程序指标数据或 DevOps 监控数据。它通过让旧数据过期和删除旧数据进行自动数据生命周期管理。它通过类似 SQL 的查询语言、HTTP API 和客户端库提供写入和查询功能。请从这里获得更多信息。
Grafana:Grafana 是一个开源的度量指标仪表盘和图形编辑器。Grafana 还支持警报和通知。它支持很多数据源,如 Graphite、InfluxDB、OpenTSDB、Prometheus、Elasticsearch 和 CloudWatch。很多仪表盘和插件(包括开源的和商业的)都可以在 Grafana 的网站上找到。有关 Grafana 的更多详细信息,请访问该网站。
系统架构
Spark 应用程序运行在集群网络上,集群网络可能包含几个节点到数千个节点。为了从这个分布式系统收集指标,并将指标发送到其他系统进行进一步分析,我们需要一个具备松散耦合和容错能力的架构。将指标发布到 Kafka 主题是最佳解决方案之一。Uber JVM Profiler 附带了“KafkaOutputReporter”,可用于实现这个目的。另一个解决方案是使用 InfluxDB。InfluxDB 提供了 HTTP API,可用于查询和写入数据库。这个 API 支持 Basic 和 JWT 令牌身份验证,并支持 HTTPS 访问。本文中的“InfluxDBOutputReporter”将通过调用 Write HTTP Endpoint 来存储由不同的 Profiler 收集到的指标。Grafana 为 InfluxDB 提供了丰富的数据源插件。Grafana 使用 Query HTTP Endpoint 从 InfluxDB 获取指标数据,并以图形和表格的形式在仪表盘上显示数据。这些图形和表格以固定的时间间隔自动刷新,时间间隔可以在 Grafana 中设置。
使用 Uber JVM Profiler、InfluxDB 和 Grafana 的 Spark 应用性能监控系统的架构图如下图 1 所示。
图 1. 性能监控系统架构图
技术和工具
下面的表格列出了性能监控系统使用的技术和工具。
请参阅相关文档以了解如何安装和配置这些工具。
设计与实现
以下部分介绍了 Spark 应用程序性能监控系统的设计和实现细节。Uber JVM Profiler 从驱动程序和执行程序收集指标,这些指标包含了一些详细信息,如角色、processUuid 和主机。这些信息对于识别不同系统和分析这些系统的指标来说非常有用。在 InfluxDB 中,我们可以使用这些信息来查询不同执行程序的性能指标。我们可以将 processUuid 加入到 InfluxDB 标签中,以此来提高查询性能。首先,我们将在 InfluxDB 中创建“metrics”数据库,然后在 JVM Profiler 代码库中添加“InfluxDBOutputReporter”,最后配置 Grafana 仪表盘。
在 InfluxDB 中创建 metrics 数据库
启动 InfluxDB 服务器,默认情况下端口为 8086。在 Ubuntu 系统中打开一个终端并执行“Influxd”命令。
/user/bin$ sudo influxd
在服务器启动后,在另一个终端启动“influx”。然后执行命令创建“metrics”数据库。
/user/bin$ sudo influx
CREATE DATABASE metrics
实现 InfluxDBOutputReporter
我们将在 JVM-Profile 代码库中实现“InfluxDBOutputReporter”。请参阅 GitHub 上的“Influxdb_reporter”分支的 InfluxDBOutputReporter.java 文件,以了解本节所讨论的实现细节。
在 Grafana 中添加数据源和仪表盘
本节将介绍在 Grafana 中添加度量数据图表所需的步骤。
启动 Grafana 服务器。在 Ubuntu 上,我们可以执行以下命令。默认端口号为 3000。
sudo service grafana-server start
在浏览器中打开 http://localhost:3000/,并为 InfluxDB 创建数据源。将 Name 设置为“InfluxDBDataSource”,Type 设置为“InfluxDB”,InfluxDB 的默认 URL 为“http://localhost:8086”,数据库名称为“metrics”。
单击“Graph”创建一个新的仪表盘,单击“Edit”添加查询。以下是一个查询示例。
复制代码
select "heapMemoryCommitted" as Committed, "heapMemoryTotalUsed" as Used from "metrics"."autogen"."CpuAndMemory” where “role" = 'driver' AND time > now() – 5m
Grafana 提供了一些选项,用于定义可在查询中传递的模板变量。这对在仪表盘上显示来自多个执行程序的数据来说非常有用。例如,我们可以为“executorProcessUuid”和“timeInterval”创建变量,并在查询中使用它们,如下所示。
复制代码
select "heapMemoryCommitted" as Committed, "heapMemoryTotalUsed" as Used from "metrics"."autogen"."CpuAndMemory” where "processUuid" =~ /^$executorProcessUuid$/ AND time > now() - $timeInterval
GitHub 提供了一个 JSON 示例文件 Spark-Metrics-Dashboar。可以在 Grafana 服务器上导入这个文件。在浏览器中打开 http://localhost:3000/dashboard/import,然后单击“Upload .json File”。
构建和部署
本节将介绍构建和部署性能监控系统的步骤。可以从 GitHub 上的“Influxdb_reporter”分支克隆应用程序代码。
使用以下命令构建带有“InfluxDBOutputReporter”的 JVM Profiler。
mvn clean package
将 maven 创建的 JVM Profiler-0.0.9.jar 文件复制到某个目录(例如 /opt/profiler)。我们也可以将 Influxdb.yaml 放在这个目录中。
我们将使用 Apache Spark 附带的 JavaNetworkWordCount 应用程序进行 profiling,源代码位于 /spark-2.3.1-bin-hadoop2.7/examples/src/main/java/org/apache/spark/examples/streaming 中。
要运行 JavaNetworkWordCount,我们需要使用以下命令运行 Netcat 服务器。
nc -lk 9999
转到 /spark-2.3.1-bin-hadoop2.7/sbin 目录,并使用以下命令启动 Master。
./start-master.sh
我们可以从日志文件中获取 Master 的 URL。将此 URL 传给命令来启动 Worker。
./start-slave.sh -c 2 spark://192.168.1.6:7077
转到 /spark-2.3.1-bin-hadoop2.7/bin 目录并执行以下命令。这个命令将执行 JavaNetworkWordCount 应用程序,并启动 JVM Profiler。有关参数的详细信息,请查看 Uber JVM Profiler 的 GitHub README 页面。
复制代码
spark-submit --master spark://192.168.1.6:7077 --conf "spark.driver.extraJavaOptions=-javaagent:/opt/profiler/jvm-profiler-0.0.9.jar=reporter=com.uber.profiling.reporters.InfluxDBOutputReporter,metricInterval=5000,sampleInterval=5000,ioProfiling=true" --conf "spark.executor.extraJavaOptions=-javaagent:/opt/profiler/jvm-profiler-0.0.9.jar=reporter=com.uber.profiling.reporters.InfluxDBOutputReporter,tag=influxdb,configProvider=com.uber.profiling.YamlConfigProvider,configFile=/opt/profiler/influxdb.yaml,metricInterval=5000,sampleInterval=5000,ioProfiling=true" --class org.apache.spark.examples.streaming.JavaSqlNetworkWordCount ../examples/jars/spark-examples_2.11-2.3.1.jar localhost 9999
或者,我们可以使用 yaml 文件来运行应用程序。在命令中传递“configProvider”和“configFile”参数,如下所示。
复制代码
spark-submit --master spark://192.168.1.6:7077 --conf "spark.driver.extraJavaOptions=-javaagent:/opt/profiler/jvm-profiler-0.0.9.jar=reporter=com.uber.profiling.reporters.InfluxDBOutputReporter,configProvider=com.uber.profiling.YamlConfigProvider,configFile=/opt/profiler/influxdb.yaml,metricInterval=5000,sampleInterval=5000,ioProfiling=true" --conf "spark.executor.extraJavaOptions=-javaagent:/opt/profiler/jvm-profiler-0.0.9.jar=reporter=com.uber.profiling.reporters.InfluxDBOutputReporter,tag=influxdb,configProvider=com.uber.profiling.YamlConfigProvider,configFile=/opt/profiler/influxdb.yaml,metricInterval=5000,sampleInterval=5000,ioProfiling=true" --class org.apache.spark.examples.streaming.JavaSqlNetworkWordCount ../examples/jars/spark-examples_2.11-2.3.1.jar localhost 9999
转到“influx”终端并执行以下命令。
use metrics
show measurements
我们将获取到“metrics”数据库中的“Measurements”名称,如下所示。
CpuAndMemory
IO
ProcessInfo
Stacktrace
使用以下命令从 CpuAndMemory 度量中获取单个记录。
select * from CpuAndMemory limit 1
以下是示例仪表盘。
图 2. 用于 Spark 指标的 Grafana 仪表盘示例
优点和缺点
我们在本文中讨论的性能监控系统使用 Uber JVM Profiler 收集系统和应用程序的指标,并将它们存储在 InfluxDB 时序数据库中。时序数据库提供数据保留策略、连续查询、灵活的时间聚合以及数百万条记录的实时处理和批处理。这些时序数据有助于我们分析过去系统发生的变化、系统当前的行为方式以及预测未来系统将如何变化。我们可以通过关联指标来识别故障模式。我们使用 Grafana 创建了一个仪表盘,帮助我们轻松访问不同类型的指标。DevOps 团队可以使用这些图形和图表来关联不同的指标,以了解系统行为,并识别数据中的热点。这有助于保持合规性并实现应用程序的 SLA。总的来说,该性能监控系统有助于实现系统的持续监控。
这个性能监控系统受限于基于代理的 Profiler。基于代理的 Profiler 会消耗一定量的计算资源。有时可能需要进行故障排除和打补丁,这对于大型分布式系统来说可能很困难。在生产系统上安装代理之前,你可能需要先做一些调研工作。我们还必须考虑性能监控系统的安全性、可扩展性和可用性。通过正确设计和调整应用程序和系统,可以解决大多数问题。如果不允许在生产系统上安装代理,可以考虑使用无代理系统,但它也有自己的局限性,例如更少的细粒度指标和网络负载开销。
总结
对于复杂的 Spark 应用程序来说,识别、调试、解决生产环境的问题并非易事,我们需要一个有效的性能监控系统来帮助我们解决这些问题。Uber JVM Profiler 是一个很好的开源工具,我们可以扩展它,添加用于发布度量指标的 Reporter。不同 Profiler 收集的 Spark 应用程序性能指标可以存储在 InfluxDB 中。我们在本文中讨论的“InfluxDBOutputReporter”通过 HTTP API 将 Spark 驱动程序和执行程序的度量指标写入 InfluxDB。Grafana 为 InfluxDB 提供了一个插件,可以通过 HTTP API 查询指标。我们可以为这些指标创建包含图表的仪表盘,并以固定的时间间隔自动刷新。此处提供了“InfluxDBOutputReporter”的代码,此处提供了 Spark-InfluxDB-Grafana.json 文件。
参考
Uber JVM Profiler——https://eng.uber.com/jvm-profiler/
InfluxDB——https://docs.influxdata.com/influxdb/v1.6/
Grafana——http://docs.grafana.org/
关于作者
Amit Baghel 是一名软件架构师,在围绕 Java 生态系统的企业应用程序和产品的设计和开发方面拥有超过 17 年的经验。他目前重点关注物联网、云计算、大数据解决方案、微服务、DevOps 以及持续集成和交付。你可以通过电子邮件 [email protected] 联系 Baghel。
查看英文原文:
https://www.infoq.com/articles/spark-application-monitoring-influxdb-grafana