12. Настройки недостижимости/недоступности интерфейса узла сети

Обзор

Несколько параметров конфигурации определяют, каким должно быть поведение Zabbix сервера, когда агентские проверки (Zabbix, SNMP, IPMI, JMX) завершаются с ошибками и узел сети становится недостижимым.

Недостижимый интерфейс

Интерфейс узла сети считается недостижимым после ошибки при проверке (сетевая ошибка, превышение времени ожидания) посредством Zabbix, SNMP, IPMI или JMX агентов. Учтите, что активные проверки Zabbix агента никак не влияют на доступность интерфейса.

С этого момента UnreachableDelay определяет, как часто в этой ситуации недостижимости интерфейс будет проверяться повторно, используя один из элементов данных (включая правила LLD), причём такие повторные проверки выполняются уже с помощью unreachable поллеров (или IPMI поллеров для IPMI проверок). По умолчанию - 15 секунд до следующей проверки.

В журнале Zabbix сервера недостижимость обозначается записями такого рода:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Обратите внимание, что указывается, какой именно элемент данных выполнился с ошибкой, а также тип этого элемента данных (Zabbix агент).

Параметр Timeout также будет влиять на то, как быстро интерфейс будет проверен повторно в течение периода недостижимости. Если время ожидания составляет 20 секунд и UnreachableDelay составляет 30 секунд, то следующая проверка будет через 50 секунд после первой попытки.

Параметр UnreachablePeriod определяет общую длительность периода недостижимости. По умолчанию, UnreachablePeriod равен 45 секундам. UnreachablePeriod должен быть в несколько раз больше, чем UnreachableDelay, чтобы интерфейс проверялся повторно более одного раза, прежде чем он станет недоступным.

Перевод интерфейса обратно в доступное состояние

По окончании периода недостижимости интерфейс опрашивается заново, со снижением приоритета элемента данных, который перевел интерфейс в недостижимое состояние. Если устанавливается связь с интерфейсом, который был недостижимым, мониторинг автоматически возвращается к норме:

resuming Zabbix agent checks on host "New host": connection restored

После того как интерфейс становится доступным, опрос всех элементов данных немедленно не осуществляется узлом сети по двум причинам:

  • это может создать слишком большую нагрузку на узел сети,
  • время восстановления интерфейса не всегда совпадает с плановым опросом элемента данных согласно заданному расписанию проверок.

Поэтому, когда интерфейс становится доступным, опрос элементов данных производится не сразу, а перепланируется в соответствии с расписанием их следующих проверок.

Недоступный интерфейс

После того как UnreachablePeriod завершился, а интерфейс так и не стал доступным, он считается недоступным.

В журнале сервера это обозначается записями такого рода:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

При этом в веб-интерфейсе иконка доступности узла сети меняет свой цвет с зеленого/серого на желтый/красный (при наведении указателя мыши на иконку доступности узла сети можно видеть информацию о недостижимости интерфейса):

Параметр UnavailableDelay определяет, как часто интерфейс проверяется повторно в течение его недоступности.

По умолчанию - раз в 60 секунд (таким образом, в этом случае "temporarily disabling" из файла журнала выше будет означать деактивацию проверок сроком на одну минуту).

Когда соединение c интерфейсом будет восстановлено, мониторинг тоже автоматически вернётся к норме:

enabling Zabbix agent checks on host "New host": interface became available