2022 Zabbix中国峰会
2022 Zabbix中国峰会

8. 服务监控

概述

服务监控功能是为帮助那些想要在IT基础设施监控之上获得更高层面监控需求的人设计。在许多情况下,我们不关心底层设施监控细节,比如磁盘空间不足,CPU高负载等等。我们关心的是IT部门提供的服务整体的可用性。我们还关心在整体IT基础设施中最薄弱的环节,以及各种IT服务的SLA指标,现有IT基础设施架构的结构,以及更高层面的监控信息。

Zabbix 服务监控就是针对上述问题提出的解决方案。

服务监控是一种监控数据的分层表现。

下面我们来看一个非常简单的服务结构:

服务
       |
       |-工作站
       | |
       | |-工作站1
       | |
       | |-工作站2
       |
       |-服务器

在结构上每个节点都具有监控属性状态。根据所选择的算法,这个状态会被计算并关联到上层状态,服务监控功能最底层是关联的触发器。每个节点状态都是受其触发器状态影响。

触发器的严重等级 如:不分类信息是不影响SLA指标计算的。

配置

配置服务监控,请点击:配置 → 服务

在这个界面上,您可以构建被监视的基础结构的层次结构。最高级的父服务是“root”。您可以向下构建层次结构,方法是添加低级的父服务,然后向它们添加单个节点。

点击 添加子节点 增加服务监控。 点击名称可编辑一个已创建的服务监控,您可以通过弹出的界面编辑该服务监控属性。

配置一个服务监控

服务监控 选项卡包含通用的服务监控属性

所有必填字段都标有红色星号。

参数 说
//名称 // 服 监控名称。
//父服务监控 // 服务监控 属的父服务监控。
//状态计算算法 // 服务监控状 计算方法:  服务状态的计算方法:\
不计算 - 不计算服务监控状态。
**异常,至少一个子服务出现问题 ** -只要一个子服务有异常,状态为异常。
**异常,所有的子服务都有问题 ** - 当所有子服务都异常时,状态为异常。
* *不计算* *,不计算服务状态\ \ * *问题,如果至少有一个子节点服务有问题* *——问题状态,如果至少一个子节点服务有问题\ \ * *问题,如果所有的孩子都有问题* *——问题状态,如果所有的子服务有问题
//计算SLA // 启 SLA计算并显示。
//可接受的SLA(%) // 此服务 控可接受的SLA百分比,用于报告。
//触发器 // 选择 联的触发器:
- 没有关联的触发器
**触发器名称 ** - 选择关联触发器,因此取决于触发器状态。
最底层服务监控必须关联触发器状态。(否则服务监控状态将无法准确的表示。)
当触发器被关联后,其触发器先前的状态告警不计入。
//排序 // 显 排序的顺序,按升序排列。

**依赖关系 ** 选项卡可以看到该服务监控所有子节点。单击 添加 增加一个之前配置过的服务监控节点。

硬依赖和软依赖

服务的可用性指标,可能取决于其他多个服务,而不仅仅是一个。第一个选项是将所有这些直接添加为子服务监控。

然而,如果有一些服务监控在其他节点已增加过,则不能简单的将其移动到该子节点。那该如何创建服务节点依赖?这个问题的答案是“软链接”。添加服务监控并勾选软连接选项。通过这种方式,服务可以保留节点之前原始位置,也可以绑定依赖到其他服务上。这种“软连接”的服务节点在服务树上显示是灰色的。另外,如果一个服务只有一个“软连接” 节点,就可以删除此服务,而不用删除软连接的子节点。

**时间 ** 选项卡,用于设置服务监控的工作时间。

参数 说
//服务监控时间 // 默认,所有 务监控都是预设24x7x365统计时间,如有特殊需要,请增加新的服务监控时间。
//新的服务监控时间 // 服务监控时间
**在线时间 ** - 服务监控正常运行时间。
**故障停机时间 ** - 故障停机时间周期内不会纳入SLA服务时间统计。
**单次停机 ** - 单次停机时间,在该时间阶段内不会纳入SLA服务时间统计。
增加相应的时间段。
注意: 服务监控时间仅影响其配置的服务监控。因此,父服务监控不会考虑子服务监控上配置的服务监控时间(除非在父服务监控上也配置相应的服务监控时间)。
在前端页面计算服务监控状态和SLA时,会考虑这个服务监控时间。然而,无论服务监控时间如何配置计算,关于服务的可用性信息仍会连续不断写入到数据库中。

展示

前往监控服务,请点击 监控 → 服务