Home avatar

蜷缩的蜗牛

专注云原生运维

Kubernetes Node Exporter Down 告警排查实战:隐形杀手 Processes 采集器

摘要

  • 告警现象: 核心 OLAP 节点 Node Exporter Down,日志报 broken pipe
  • 排查路径: 从网络连通性验证到具体采集器性能分析,逐步缩小范围。
  • 根因定位: processes 采集器在遍历海量进程时耗时过长(>30s),导致抓取超时。
  • 解决方案: 禁用高开销采集器,恢复监控稳定性。

Prometheus PromQL 查询最佳实践与性能优化

PromQL 查询最佳实践与性能优化

作为一名 SRE,编写高效且可读性强的 PromQL (Prometheus Query Language) 是日常工作中不可或缺的技能。糟糕的查询不仅会导致 Dashboard 加载缓慢,甚至可能导致 Prometheus OOM (Out of Memory)。本文将总结 PromQL 的查询技巧,重点关注性能优化和代码可读性。

0%