2022 Zabbix中国峰会
2022 Zabbix中国峰会

8. Service 服务监控

概述

服务监控功能是为帮助那些想要在IT基础设施监控之上,获得更高层面(业务)监控需求的人设计的。在许多情况下,我们不关心底层设施的监控细节,比如磁盘空间不足,CPU高负载等等。我们关心的是IT部门提供的服务整体的可用性。我们还关心在IT基础设施中确认薄弱的地方,以及各种IT服务的SLA指标(SLA服务等级协议),现有IT基础设施架构的结构,以及更高层面的监控信息。

Zabbix 服务监控就是针对上述问题提出的解决方案。服务监控。

服务监控是一种监控数据的分层表现。

下面我们来看一个非常简单的服务结构:

Service
       |
       |-Workstations
       | |
       | |-Workstation1
       | |
       | |-Workstation2
       |
       |-Servers

在结构上每个节点都具有监控属性状态。根据所选择的算法,这个状态会被计算并关联到上层状态,服务监控功能最底层是关联的触发器。每个节点状态都是受其触发器状态影响。

提示:触发器的级别如果是不分类(Not classified)信息(Information)是不会影响SLA计算的。

配置

配置服务监控,请点击:配置(Configuration) → 服务监控(Services).

在该界面,您可以创建一个分层监控结构,最高级别的父节点服务是‘root’。您可以通过添加低级别的父节点服务向下创建分层结构,然后添加各个节点。

点击 添加子节点(Add child) 增加服务监控。 点击名称可编辑一个已创建的服务监控,您可以通过弹出的界面编辑该服务监控属性。

配置一个服务监控

服务监控 选项卡包含通用的服务监控属性:

所有必填字段都标有红色星号。

参数 说
名称 监控名称。
父服务监控 服务监控 属的父服务监控。
状态计算算法 服务监控状 计算方法:
不要计算 - 不计算服务监控状态。
异常, 至少一个子服务出现问题 -只要一个子服务有异常,状态为异常。
异常,所有的子服务都有问题 - 当所有子服务都异常时,状态为异常。
计算SLA SLA计算并显示。
可接受的SLA 此服务 控可接受的SLA百分比,用于报告。
触发器 选择 联的触发器:
- 无
触发器名称 - 选择关联触发器,因此取决于触发器状态。
最底层服务监控必须关联触发器状态。(否则服务监控状态将无法准确的表示。)
当触发器被关联后,其触发器先前的状态告警不计入。
排序 排序的顺序,按升序排列。

依赖关系 选项卡可以看到该服务监控所有子节点。单击 添加 增加一个已经配置过的服务监控。

硬依赖和软依赖

服务的可用性指标,可能取决于其他多个服务,而不仅仅是一个。第一个选项是将所有这些直接添加为子服务监控。

然而,如果有一些服务监控在其他节点已增加过,则不能简单的将其移动到该子节点。那该如何创建服务节点依赖?这个问题的答案是“软链接”。添加服务监控并勾选 软连接 选项。通过这种方式,服务可以保留节点之前原始位置,也可以绑定依赖到其他服务上。这种“软连接”的服务节点在服务树上显示是灰色的。另外,如果一个服务只有一个“软连接” 节点,就可以删除此服务,而不用删除软连接的子节点。

时间 选项卡,用于设置服务监控的工作时间。

参数 说
服务监控时间 默认,所有 务监控都是预设24x7x365统计时间,如有特殊需要,请增加新的服务监控时间。
新的服务监控时间 服务监控时间: <在线时间 - 服务监控正常运行时间。
故障停机时间 - 故障停机时间周期内不会纳入SLA服务时间统计。
单次停机 - 单次停机时间,在该时间阶段内不会纳入SLA服务时间统计。
增加相应的时间段。
注意: 服务监控时间仅影响其配置的服务监控。因此,父服务监控不会考虑子服务监控上配置的服务监控时间(除非在父服务监控上也配置相应的服务监控时间)。\\在前端页面计算服务监控状态和SLA时,会考虑这个服务监控时间。然而,无论服务监控时间如何配置计算,关于服务的可用性信息仍会连续不断写入到数据库中。

前端显示

前往监控服务,请点击监控中监控中(Monitoring) → 服务(services).