当需要监控的内容很多时,比如服务器群,就需要一种策略来决定哪些内容足够重要,需要监控。本页介绍了几种选择监控内容的常用方法。
合理的策略可让您制作统一的仪表盘,并更轻松地扩展可观察性平台。
USE 法告诉你机器有多满意,RED 法告诉你用户有多满意。
USE 报告问题的原因。
RED 报告用户体验,更有可能报告问题症状。
警报的最佳做法是针对症状而不是原因发出警报,因此应在 RED 仪表盘上发出警报。
USE 代表:
利用率 - 资源繁忙时间的百分比,如节点 CPU 使用率
饱和度 - 资源的工作量,通常是队列长度或节点负荷
错误 - 错误事件计数
此方法最适用于基础设施中的硬件资源,如 CPU、内存和网络设备。如需了解更多信息,请参阅 USE 方法。
RED 代表:
速率 - 每秒请求次数
错误 - 失败请求的数量
持续时间 - 这些请求所需的时间,延迟测量的分布情况
这种方法最适用于服务,尤其是微服务环境。对于每个服务,都要对代码进行工具化,以便为每个组件公开这些指标。RED 仪表板适用于警报和 SLA。设计精良的 RED 面板是用户体验的代表。
如需了解更多信息,请参阅 Tom Wilkie 的博文 RED 方法:如何检测您的服务。
根据 Google SRE 手册,如果您只能测量面向用户系统的四个指标,那么请将重点放在这四个指标上。
这种方法与 RED 方法类似,但它包括饱和度。
延迟 - 服务请求所需的时间
流量 - 对系统的需求量有多大
错误 - 请求失败率
饱和度 - 系统的“饱和”程度