[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

摘要

本文主要介绍了下Uber的开源项目JVM-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、Hive任务的资源消耗相关指标,可用于后续分析以及资源调优.

本文主要介绍了下Uber的开源项目 JVM-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、Hive任务的资源消耗相关指标,可用于后续分析以及资源调优.

背景

主要介绍针对平台的spark应用程序,在不修改用户程序的情况下如何采集其资源和性能指标为后续分析使用,如性能优化,资源使用计价等.

在分布式环境中，多个 Spark 应用程序运行在同一台服务器上，每个 Spark 应用程序都有大量的进程（例如数千个执行程序）在许多服务器上运行.

为了跟上数据基础设施的不断增长，我们需要能够随时测量任何应用程序，而无需更改代码。

例如，如果我们在 hadoop 分布式文件系统 (hdfs) Namenode 上遇到高延迟，我们希望检查从每个 Spark 应用程序观察到的延迟，以确保这些问题没有被复制。由于 NameNode 客户端代码嵌入在我们的 Spark 库中，因此修改其源代码以添加此特定指标很麻烦。

主要受 https://GitHub.com/etsy/statsd-jvm-profiler 启发构建了更多功能的分析器

JVM Profiler 由三个关键功能组成，可以更轻松地收集性能和资源使用指标，然后将这些指标（例如 Apache kafka）提供给其他系统进行进一步分析：

java agent: 通过将 Java agent 合并到我们的分析器中，用户可以以分布式方式收集 JVM 进程的各种指标（例如 CPU/内存使用情况）和堆栈跟踪
高级分析功能：JVM Profiler 允许我们跟踪用户代码中的任意 Java 方法和参数，而无需进行任何实际代码更改。此功能可用于跟踪 Spark 应用程序的 HDFS NameNode rpc 调用延迟并识别慢速方法调用。它还可以跟踪每个 Spark 应用程序读取或写入的 HDFS 文件路径，以识别热文件以进行进一步优化。
数据分析报告：在 Uber，我们使用分析器向 Kafka topic和 Apache Hive 表报告指标，使数据分析更快更容易。

大小合适的 executor：使用 JVM Profiler 的内存指标来跟踪每个 executor 的实际内存使用情况，以便我们可以为 Spark“executor-memory”参数设置正确的值。
监控 HDFS NameNode RPC 延迟：我们分析Spark 应用程序中org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB类上的方法，并识别 NameNode 调用的长时间延迟
监控驱动程序丢弃事件：分析像org.apache.spark.scheduler.LiveListenerBus.onDropEvent这样的方法来跟踪 Spark 驱动程序事件队列变得太长并丢弃事件的情况。
跟踪数据：在org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getBlockLocations和org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.addBlock方法上分析文件路径参数，以跟踪 Spark 读取和写入的文件应用

为了使实现尽可能无缝，JVM Profiler 具有非常简单且可扩展的设计。人们可以轻松添加额外的分析器实现来收集更多指标，还可以部署自己的自定义报告器，将指标发送到不同的系统进行数据分析。

一旦进程启动，JVM Profiler 代码就会通过Java agent 参数加载到 Java 进程中。它由三个主要部分组成：

Class File TransfORMer:在进程内检测 Java 方法字节码以分析任意用户代码并将指标保存在内部指标缓冲区中。
Metric Profilers
- CPU/Memory Profiler:通过JMX收集 CPU/内存使用指标并将其发送给报告者。
- Method Duration Profiler:从指标缓冲区读取方法持续时间（延迟）指标并发送给报告者。
- Method Argument Profiler: 从指标缓冲区读取方法参数值并将其发送给报告者。
Reporters
- Console Reporter: 在控制台输出中写入指标
- Kafka Reporter ：将指标发送到 Kafka topic中

用户可以实现自己的报告器并使用 -javaagent 选项指定它:

-javaagent:jvm-profiler-0.0.5.jar= reporter=com.uber.profiling.reporters.CustomReporter

基础设施集成实现:

集群范围的数据分析：指标首先发送到 Kafka 并摄取到 HDFS，然后用户使用 Hive/Presto/Spark 进行查询。
实时 Spark 应用程序调试：使用 flink 实时聚合单个应用程序的数据并写入Mysql 数据库，然后用户可以通过基于 WEB 的界面查看指标。