11 不可达/不可用 主机 接口设置

概述

若干配置 parameters 定义了当 agent 检查(Zabbix、SNMP、IPMI、JMX)失败且 一个主机 接口不可达时,Zabbix 服务器应如何响应。

不可达接口

一个主机 接口在检查失败后被视为不可达(网络 错误、超时)由 Zabbix、SNMP、IPMI 或 JMX agents 引起。自 Zabbix 6.2.0 起,主动 Zabbix agent 检查也会影响接口的可用性。当主动检查不可用时,它们将影响 agent 接口整体可用性状态。

从接口变得不可达的那一刻起,unreachabledelay 定义了使用其中一个 监控项(包括LLD规则)重新检查的频率。 这些重检查由不可达轮询器(或IPMI轮询器用于IPMI检查)。 连续可达性检查之间的默认间隔为 15 秒。

::: noteimportant 由异步轮询器执行的检查不会转移到不可达轮询器。 仅返回OutputFormat格式要求结果

在 Zabbix server 日志中,不可达性由类似以下消息指示:

Zabbix agent 监控项 "system.cpu.load[percpu,avg1]" on 主机 "New 主机" failed: first network error, wait for 15 seconds
       Zabbix agent 监控项 "system.cpu.load[percpu,avg15]" on 主机 "New 主机" failed: another network error, wait for 15 seconds

日志消息指定了确切的监控项及其类型(Zabbix agent)。

::: noteclassic Timeout 参数还会影响触发器表达式的执行频率。 如果将超时设置为 20,则在无法到达期间会重新检查接口。 秒,UnreachableDelay 设置为 30 秒,下次检查将在 50 秒后进行 首次尝试后秒数。 仅返回OutputFormat格式要求结果

UnreachablePeriod参数定义了不可达状态的总持续时间 周期。默认情况下,不可达周期为 45 秒。 此值应比UnreachableDelay大若干倍,以确保在标记接口为不可用之前对其进行多次重新检查。

一种内部监控项,zabbix[主机,active_agent,available],允许在无法到达的情况下监控主动检查的可用性。

将接口切换回可用状态

当不可达周期结束后,接口会再次被轮询,同时降低导致接口进入不可达状态的监控项的优先级。如果不可达的接口重新出现,监控将自动恢复正常:

恢复对主机“新主机”的Zabbix agent检查:连接已恢复

一旦接口变为可用,主机不会立即轮询其所有监控项,原因有两个:

  • 这可能会使主机过载。
  • 接口恢复时间并不总是与计划的监控项轮询时间一致。

因此,在接口变为可用后,监控项不会立即被轮询,而是被重新安排到下一轮轮询中。

不可用接口

不可达周期结束后,如果接口仍未重新出现,则该接口将被视为不可用。

在服务器日志中,会显示如下消息:

暂时禁用对 Zabbix agent 检查的 主机 "新的 主机":接口不可用

并且在 frontend 主机 可用性图标从绿色/灰色变为黄色/红色(将鼠标悬停在 主机 可用性图标上时,提示框中会显示不可用接口的详细信息):

UnavailableDelay 参数定义了在接口不可用期间对接口进行检查的频率。

默认情况下是 60 秒(因此在这种情况下,从上面的日志消息来看,“暂时禁用”意味着禁用检查一分钟)。

当接口的连接恢复后,监控也会自动恢复正常:

启用对 Zabbix agent 检查的 主机 "新的 主机":接口变为可用