阿里云EMR自定义日志投递与使用实践分享

1

引言

开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。

EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。

2

关键字

E-MapReduce,日志管理,日志投递,日志消费

3

前提条件:

已有阿里云EMR集群,且已开启日志查询功能。更多信息,请参见管理日志。

4

步骤1:配置采集

  1. 登陆E-MapReduce服务控制台。

  2. 选择前往日志服务控制台,点击右上角前往日志服务控制台。

阿里云EMR自定义日志投递与使用实践分享_第1张图片

  1. 创建日志库,选择合适的数据保存时间。

阿里云EMR自定义日志投递与使用实践分享_第2张图片

  1. 在新建日志库下点开logtail配置,选择json文件日志。

阿里云EMR自定义日志投递与使用实践分享_第3张图片

  1. 若开启日志投递,会看到已有的机器组,应用该机器组。

阿里云EMR自定义日志投递与使用实践分享_第4张图片

  1. 配置Logtail

设置日志路径/mnt/disk1/log/taihao_exporter/**/metrics.log*

然后点击下一步至完成。

阿里云EMR自定义日志投递与使用实践分享_第5张图片

  1. 索引配置(可选)

也可以配置索引方便对其做搜索,如图所示自动生成索引。

阿里云EMR自定义日志投递与使用实践分享_第6张图片

5

步骤2:查询指标

配置完毕后,就可以在sls上看到指标了。

阿里云EMR自定义日志投递与使用实践分享_第7张图片

您可以在Logstore的查询和分析页面,输入查询语句,选择时间范围,单击查找/分析,进行日志查询操作。

  • 查询指标名为yarn_nodemanager_jvm_GcTimeMillis的值。

* and name: yarn_nodemanager_jvm_GcTimeMillis
  • 查询指标名为yarn_nodemanager_jvm_GcTimeMillis且value>200的值。

* and name: yarn_nodemanager_jvm_GcTimeMillis and value > 200
  • 查询header节点的yarn_timelineserver_jvm_GcTimeMillis指标。

* and hostname: "emr-header-1.cluster-500202362" and name: yarn_timelineserver_jvm_GcTimeMillis

6

步骤3:分析日志

您可以在Logstore的查询和分析页面,输入查询和分析语句,选择时间范围,单击查找/分析,进行日志分析操作。

  • 统计不同指标的数量。

* | SELECT "name", COUNT(*) AS PV GROUP BY "name"

阿里云EMR自定义日志投递与使用实践分享_第8张图片

  • 计算不同时刻对应的指标数量,并按照时刻进行升序排序。

* | SELECT "timestamp", COUNT(*) AS count GROUP BY "timestamp" ORDER BY "timestamp"

阿里云EMR自定义日志投递与使用实践分享_第9张图片

7

参考信息:日志样例

阿里云EMR自定义日志投递与使用实践分享_第10张图片


钉钉扫码进群,了解更多详情

阿里云EMR自定义日志投递与使用实践分享_第11张图片

点击「阅读原文」查看原文

你可能感兴趣的:(阿里云,大数据,hadoop,云计算,分布式)