12 不可达/不可用主机接口设置

概述

多项配置 parameters 定义了当 agent 检查(Zabbix、SNMP、IPMI、JMX)失败 且 一个主机 接口不可达时 Zabbix 服务器的行为方式。

不可达接口

一个主机 接口在检查失败后被视作不可达(网络 错误、超时)通过Zabbix、SNMP、IPMI或JMX agents。请注意Zabbix agent主动检查不会以任何方式影响接口可用性。

从那一刻起,UnreachableDelay 定义了接口的检测频率 使用此处的某个监控项(包括LLD规则)重新检查 不可达状态,此类重新检查将由 不可达轮询器(或用于IPMI检查的IPMI轮询器)。默认情况下它是 下一次检查前的15秒。

在Zabbix server日志中,不可达性通过类似以下消息表示 这些:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

请注意,失败的具体监控项会被明确指出,且监控项类型也会显示 (Zabbix agent).

Timeout参数还会影响一个 接口在不可达期间会重新检查。如果超时为20 秒数和UnreachableDelay 30秒,下一次检查将在50秒后进行 第一次尝试后的秒数

UnreachablePeriod参数定义了不可达状态的持续时间 总周期。默认情况下,UnreachablePeriod为45秒。 UnreachablePeriod应比UnreachableDelay大若干倍 以便在接口被重新检查之前多次检查该接口 变得不可用

将接口切换回可用状态

当不可达状态周期结束后,系统会再次轮询该接口, 并降低导致该接口进入不可达状态的监控项优先级。 如果不可达接口重新出现,监控将自动恢复正常:

resuming Zabbix agent checks on host "New host": connection restored

当接口恢复可用时,主机不会立即轮询其所有监控项, 原因如下:

  • 这可能导致主机过载

  • 接口恢复时间并不总是与计划的监控项相匹配

    polling schedule time.

因此,在接口恢复可用后,监控项不会被立即轮询, 而是被重新调度到下一个轮询周期执行。

不可用接口

当UnreachablePeriod结束后接口仍未重新出现, 该接口将被视为不可用。

在服务器日志中会显示如下消息:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

同时在 frontend 主机可用性图标会从绿色/灰色变为黄色/红色( 将鼠标悬停在主机可用性图标上时, 提示框中会显示不可达接口的详细信息):

UnavailableDelay参数定义了接口不可用期间检查接口的频率。

默认值为60秒(因此在上面的日志消息中, "temporarily disabling"意味着暂停检查一分钟)。

当与接口的连接恢复时,监控也会自动恢复正常:

在主机"New 主机"上启用Zabbix agent检查:接口已恢复可用