11 Настройки недоступного/не отвечающего интерфейса узла сети
Обзор
Несколько параметров parameters определяют, как сервер Zabbix должен вести себя, когда проверка агента (Zabbix, SNMP, IPMI, JMX) завершается неудачей и интерфейс узла сети становится недоступным.
Недоступный интерфейс
Интерфейс узла сети считается недоступным после неудачной проверки (ошибка сети, тайм-аут) агентами Zabbix, SNMP, IPMI или JMX. Начиная с Zabbix 6.2.0, активные проверки агента Zabbix также влияют на доступность интерфейса. Когда активные проверки становятся недоступными, они вносят вклад в общий статус доступности интерфейса агента.
С момента, когда интерфейс становится недоступным, UnreachableDelay определяет, как часто он перепроверяется с использованием одного из элементов данных (включая правила LLD).
Эти повторные проверки выполняются недоступными poller-процессами (или IPMI poller-процессами для IPMI-проверок).
По умолчанию интервал между последовательными проверками доступности составляет 15 секунд.
Проверки, выполняемые асинхронными poller-процессами, не переводятся к недоступным poller-процессам.
В журнале сервера Zabbix недоступность обозначается сообщениями вида:
Элемент данных агента Zabbix "system.cpu.load[percpu,avg1]" на узле сети "New host" завершился ошибкой: первая ошибка сети, ожидание 15 секунд
Элемент данных агента Zabbix "system.cpu.load[percpu,avg15]" на узле сети "New host" завершился ошибкой: ещё одна ошибка сети, ожидание 15 секунд
Сообщения журнала указывают точный элемент данных, для которого произошёл сбой, и его тип (агент Zabbix).
Параметр Timeout также влияет на то, насколько рано интерфейс будет перепроверен в период недоступности. Если Timeout установлен в 20 секунд, а UnreachableDelay — в 30 секунд, следующая проверка произойдёт через 50 секунд после первой попытки.
Параметр UnreachablePeriod определяет общую длительность периода
недоступности. По умолчанию значение UnreachablePeriod составляет 45 секунд.
Это значение должно быть в несколько раз больше, чем UnreachableDelay, чтобы интерфейс был перепроверен несколько раз перед тем, как будет помечен как недоступный.
Внутренний элемент данных zabbix[host,active_agent,available] позволяет отслеживать доступность активных проверок в сценариях недоступности.
Переключение интерфейса обратно в состояние доступности
Когда период недоступности заканчивается, интерфейс снова опрашивается, при этом приоритет для элемента данных, который перевёл интерфейс в состояние недоступности, снижается. Если недоступный интерфейс снова появляется, мониторинг автоматически возвращается в нормальное состояние:
возобновление проверок Zabbix агентом на узле сети "New host": соединение восстановлено
Как только интерфейс становится доступным, узел сети не опрашивает сразу все свои элементы данных по двум причинам:
- Это может перегрузить узел сети.
- Время восстановления интерфейса не всегда совпадает с запланированным временем опроса элементов данных.
Поэтому после того, как интерфейс становится доступным, элементы данных не опрашиваются немедленно, а переносятся на следующий цикл опроса.
Недоступный интерфейс
После окончания периода UnreachablePeriod, если интерфейс не появился снова, он считается недоступным.
В журнале сервера это обозначается сообщениями следующего вида:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
а в веб-интерфейсе значок доступности узла сети меняется с зеленого/серого на желтый/красный (подробности о недоступном интерфейсе можно увидеть во всплывающей подсказке, которая отображается при наведении указателя мыши на значок доступности узла сети):

Параметр UnavailableDelay определяет, как часто интерфейс проверяется в период его недоступности.
По умолчанию это 60 секунд (то есть в данном случае «temporarily disabling» из сообщения журнала выше будет означать отключение проверок на одну минуту).
Когда соединение с интерфейсом восстанавливается, мониторинг также автоматически возвращается в нормальный режим:
enabling Zabbix agent checks on host "New host": interface became available