大数据监控系统相关设计开发

spoor-metrics

spoor-metrics 是一个监控系统的收集模块,主要用于采集现有大数据基础组件的metric信息,并且进行展示

白名单

白名单配置文件主要用于过滤和解析metrics system产生的信息,并且进行压缩,常见的一份配置如下

filesystem.file.largeRead_ops=fileLargeReadOps,Gauge
filesystem.file.read_bytes=fileReadBytes,Gauge
filesystem.file.read_ops=fileReadOps,Gauge
filesystem.hdfs.largeRead_ops=hdfsLargeReadOps,Gauge
filesystem.hdfs.read_bytes=hdfsReadBytes,Gauge
filesystem.hdfs.read_ops=hdfsReadOps,Gauge
BlockManager.memory.maxMem_MB=memoryMaxMem,Gauge
BlockManager.memory.memUsed_MB=memoryMemUsed,Gauge
BlockManager.disk.diskSpaceUsed_MB=diskSpaceUsed,Gauge

只有在白名单中被配置过的指标才会被收集模块进行收集

reporter

spark中使用的metircs是io.dropwizard.metrics,其默认的reporter并不是特别符合我们的需求,因此我们实现了一个Kafka的Repoter,用于推送到kafka中

spark sink

spark的metrics system主要是启动的时候将sink传入进去,相关代码在org.apache.spark.metrics.MetricsSystem中,然后比如Executor等在内部注册到source里面去,通过这种方式完成的解耦,所以也很简单,按照配置规范,自己实现个sink就好了

*.sink.kafka.class=org.apache.spark.spoor.metrics.sink.KafkaSink
*.sink.kafka.period=10
*.sink.kafka.unit=seconds
*.sink.kafka.topic=spoor-metrics
*.sink.kafka.broker=192.168.3.44:9092
*.sink.kafka.group=data

消费

消费端就是spark streaming去操作对应的kafka,解码成对象,然后每个window中用sparkSql转换成一个DataSet,持久化到外部存储中就可以了

展示

相关源码后面整理下,看能不能开源出来,整个设计还是比较简洁的

mygithub

你可能感兴趣的:(spark)