Grafana 教程

常见的可观测性策略

当需要监控的内容很多时,比如服务器群,就需要一种策略来决定哪些内容足够重要,需要监控。本页介绍了几种选择监控内容的常用方法。

合理的策略可让您制作统一的仪表盘,并更轻松地扩展可观察性平台。

使用指南

  • USE 法告诉你机器有多满意,RED 法告诉你用户有多满意。

  • USE 报告问题的原因。

  • RED 报告用户体验,更有可能报告问题症状。

  • 警报的最佳做法是针对症状而不是原因发出警报,因此应在 RED 仪表盘上发出警报。

USE 方法

USE 代表:

  • 利用率 - 资源繁忙时间的百分比,如节点 CPU 使用率

  • 饱和度 - 资源的工作量,通常是队列长度或节点负荷

  • 错误 - 错误事件计数

此方法最适用于基础设施中的硬件资源,如 CPU、内存和网络设备。如需了解更多信息,请参阅 USE 方法

RED 方法

RED 代表:

  • 速率 - 每秒请求次数

  • 错误 - 失败请求的数量

  • 持续时间 - 这些请求所需的时间,延迟测量的分布情况

这种方法最适用于服务,尤其是微服务环境。对于每个服务,都要对代码进行工具化,以便为每个组件公开这些指标。RED 仪表板适用于警报和 SLA。设计精良的 RED 面板是用户体验的代表。

如需了解更多信息,请参阅 Tom Wilkie 的博文 RED 方法:如何检测您的服务

四大黄金信号

根据 Google SRE 手册,如果您只能测量面向用户系统的四个指标,那么请将重点放在这四个指标上。

这种方法与 RED 方法类似,但它包括饱和度。

  • 延迟 - 服务请求所需的时间

  • 流量 - 对系统的需求量有多大

  • 错误 - 请求失败率

  • 饱和度 - 系统的“饱和”程度

这是来自 Grafana Play 的一个例子


说说我的看法
全部评论(
没有评论
关于
本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明,如果原文没有版权声明,请来信告知:hxstrive@outlook.com
公众号