11 Настройки недоступного/не отвечающего интерфейса узла сети
Обзор
Несколько параметров конфигурации parameters определяют, как сервер Zabbix должен вести себя, когда проверка агента (Zabbix, SNMP, IPMI, JMX) завершается неудачей и интерфейс узла сети становится недоступным.
Недоступный интерфейс
Интерфейс узла сети считается недоступным после неудачной проверки (ошибка сети, тайм-аут) агентами Zabbix, SNMP, IPMI или JMX. Начиная с Zabbix 6.2.0, активные проверки агента Zabbix также влияют на доступность интерфейса. Когда активные проверки становятся недоступными, они учитываютcя в общем статусе доступности интерфейса агента.
С момента, когда интерфейс становится недоступным, UnreachableDelay определяет, как часто он повторно проверяется с использованием одного из элементов данных (включая правила LLD). Эти повторные проверки выполняются опросчиками недоступных интерфейсов (или IPMI-опросчиками для проверок IPMI). По умолчанию интервал между последовательными проверками доступности составляет 15 секунд.
Проверки, выполняемые асинхронными опросчиками, не переносятся к опросчикам недоступных интерфейсов.
В журнале сервера Zabbix недоступность обозначается сообщениями вида:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
Сообщения журнала указывают точный элемент данных, который завершился с ошибкой, и его тип (агент Zabbix).
Параметр Timeout также влияет на то, как рано интерфейс будет повторно проверен во время недоступности. Если для Timeout задано значение 20 секунд, а для UnreachableDelay - 30 секунд, следующая проверка будет выполнена через 50 секунд после первой попытки.
Параметр UnreachablePeriod определяет общую длительность периода недоступности. По умолчанию UnreachablePeriod равен 45 секундам. Это значение должно быть в несколько раз больше, чем UnreachableDelay, чтобы обеспечить повторную проверку интерфейса несколько раз до того, как он будет помечен как недоступный.
Внутренний элемент данных zabbix[host,active_agent,available] позволяет отслеживать доступность активных проверок в сценариях недоступности.
Переключение интерфейса обратно в состояние доступности
Когда период недоступности заканчивается, интерфейс снова опрашивается, при этом приоритет для элемента данных, который перевёл интерфейс в состояние недоступности, снижается. Если недоступный интерфейс снова появляется, мониторинг автоматически возвращается в нормальное состояние:
возобновление проверок Zabbix агентом на узле сети "New host": соединение восстановлено
Как только интерфейс становится доступным, узел сети не опрашивает сразу все свои элементы данных по двум причинам:
- Это может перегрузить узел сети.
- Время восстановления интерфейса не всегда совпадает с запланированным временем опроса элементов данных.
Поэтому после того, как интерфейс становится доступным, элементы данных не опрашиваются немедленно, а переносятся на следующий цикл опроса.
Недоступный интерфейс
После окончания периода UnreachablePeriod, если интерфейс не появился снова, он считается недоступным.
В журнале сервера это обозначается сообщениями следующего вида:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
а в веб-интерфейсе значок доступности узла сети меняется с зеленого/серого на желтый/красный (подробности о недоступном интерфейсе можно увидеть во всплывающей подсказке, которая отображается при наведении указателя мыши на значок доступности узла сети):

Параметр UnavailableDelay определяет, как часто интерфейс проверяется в период его недоступности.
По умолчанию это 60 секунд (то есть в данном случае «temporarily disabling» из сообщения журнала выше будет означать отключение проверок на одну минуту).
Когда соединение с интерфейсом восстанавливается, мониторинг также автоматически возвращается в нормальный режим:
enabling Zabbix agent checks on host "New host": interface became available