如前文 Grafana 系列 - 统一展示 -1- 开篇所述, Grafana 可以了解所有相关的数据--以及它们之间的关系--对于尽快根治事件和确定意外系统行为的真正来源非常重要。Grafana 允许团队在一个地方对所有的数据进行无缝的可视化和跳转。
最典型的就是 Grafana Labs 的 LGTM 技术栈,包括:
通过如下的技术细节,可以实现 Logging、Tracing、Metrics 的无缝可视化和跳转:
具体如下图:
即使没有采用 Grafana Labs 的解决方案,也仍然能实现一定程度的无缝跳转。
如:
如果日志中也包括 trace_id
, Name 至少可以通过 trace_id
, 实现 Logs -> Traces 的无缝跳转。
Notes:
前提是: 日志中包括
trace_id
相关字段. 当然, 日志中就包含trace_id
字段, 属于开发对日志格式规划地比较好了. 这使得运维侧配置跳转逻辑简单了很多. 更多情况下, 是要结合cluster
namespace
app
pod
等字段/label 进行查询. (而非直接通过trace_id
直接定位.)
Notes:
实战场景: 针对报错日志, 定位到出错的 Trace.
首先, 更新 ES 数据源配置, 增加 Data links 相关配置:
trace_id
(根据实际情况配置, 也可能是 traceId
等)${__value.raw}
之后, 可以通过ES 日志快速搜索仪表板, 筛选出ERROR
日志, 点击展开 details, 会发现 trace_id
会带一个跳转链接, 如下图:
点击后, 会直接跳转到 Explore -> Jaeger 页面, 并带有出错的 trace_id
, 同时显示链路拓扑和 trace 瀑布图, 如下图:
至此, 我们完成了一个非常简单的, 从 Logs(ElasticSearch) 到 Trace(Jaeger) 的单向跳转. 但已经会为我们分析问题提供较大的便利了.
如果需要实现 Metrics, Logs, Traces 三者的双向跳转, 那么在这三者的解决方案需要是特定的方案, 另外这三者的数据源、Dashboard 和 Query 中都需要有更多精细的配置。包括不限于:
以此抛砖引玉,希望读者可以做出更精美、实用的监控统一展示和无缝跳转方案。
三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.