常见的可观测性策略

当需要监控的内容很多时，比如服务器群，就需要一种策略来决定哪些内容足够重要，需要监控。本页介绍了几种选择监控内容的常用方法。

合理的策略可让您制作统一的仪表盘，并更轻松地扩展可观察性平台。

使用指南

USE 法告诉你机器有多满意，RED 法告诉你用户有多满意。
USE 报告问题的原因。
RED 报告用户体验，更有可能报告问题症状。
警报的最佳做法是针对症状而不是原因发出警报，因此应在 RED 仪表盘上发出警报。

USE 方法

USE 代表:

利用率 - 资源繁忙时间的百分比，如节点 CPU 使用率
饱和度 - 资源的工作量，通常是队列长度或节点负荷
错误 - 错误事件计数

此方法最适用于基础设施中的硬件资源，如 CPU、内存和网络设备。如需了解更多信息，请参阅 USE 方法。

RED 方法

RED 代表：

速率 - 每秒请求次数
错误 - 失败请求的数量
持续时间 - 这些请求所需的时间，延迟测量的分布情况

这种方法最适用于服务，尤其是微服务环境。对于每个服务，都要对代码进行工具化，以便为每个组件公开这些指标。RED 仪表板适用于警报和 SLA。设计精良的 RED 面板是用户体验的代表。

如需了解更多信息，请参阅 Tom Wilkie 的博文 RED 方法：如何检测您的服务。

四大黄金信号

根据 Google SRE 手册，如果您只能测量面向用户系统的四个指标，那么请将重点放在这四个指标上。

这种方法与 RED 方法类似，但它包括饱和度。

延迟 - 服务请求所需的时间
流量 - 对系统的需求量有多大
错误 - 请求失败率
饱和度 - 系统的“饱和”程度

这是来自 Grafana Play 的一个例子

上一章：更改 Grafana 端口下一章：仪表板管理成熟度模型

说说我的看法

* 必填

全部评论（0）

没有评论

更多教程

关于

本网站专注于 Java、数据库（MySQL、Oracle）、Linux、软件架构及大数据等多领域技术知识分享。涵盖丰富的原创与精选技术文章，助力技术传播与交流。无论是技术新手渴望入门，还是资深开发者寻求进阶，这里都能为您提供深度见解与实用经验，让复杂编码变得轻松易懂，携手共赴技术提升新高度。如有侵权，请来信告知：hxstrive@outlook.com

链接

其他应用

开源镜像网站

公众号