6 Настройки недостижимости/недоступности хостов

Обзор

Несколько параметров конфигурации определяют как Zabbix сервер должен вести себя, если агентские проверки (Zabbix, SNMP, IPMI, JMX) завершаются ошибочно и хост становится недостижимым.

Недостижимый узел сети

Узел сети считается недостижимым после неудачной проверки агентской проверки (сетевая ошибка, таймаут).

Начиная с этого момента UnreachableDelay определяет как часто элементы данных будут перепроверены в ситуации недостижимости и такие перепроверки будут выполняться уже с помощью unreachable поллеров. По умолчанию 15 секунд до следующей проверки.

В логе Zabbix сервера недостижимость записывается сообщениями подобными следующим:

Zabbix agent item [system.cpu.load[percpu,avg1]] on host [New host] failed: first network error, wait for 15 seconds
       Zabbix agent item [system.cpu.load[percpu,avg15]] on host [New host] failed: another network error, wait for 15 seconds

Обратите внимание, что указывается точный элемент данных и тип этого элемента данных (Zabbix агент).

Параметр Timeout также влияет как быстро элемент данных будет перепроверен в течении недостижимости. Если Timeout - 20 секунд и UnreachableDelay - 30 секунд, то следующая проверка будет выполнена через 50 секунд после первой попытки.

Параметр UnreachablePeriod определяет суммарную длительность недостижимого периода.

По умолчанию UnreachablePeriod - 45 seconds. UnreachablePeriod должен быть в несколько раз больше чем UnreachableDelay, таким образом эти элементы данных будут перепроверяться более одного раза прежде чем узел сети станет недоступным.

Недоступный узел сети

После того как UnreachablePeriod завершен и узел сети не становится доступным, узел сети считается недоступным.

В логе Zabbix сервера подобное записывается сообщением:

temporarily disabling Zabbix agent checks on host [New host]: host unavailable

и в веб-интерфейсе иконка доступности узла сети становится из зеленой в красной (обратите внимание, что при наведении указателя мыши будет отображена подсказка с описанием ошибки):

По умолчанию UnreachablePeriod - 45 seconds. UnreachablePeriod должен быть в несколько раз больше чем UnreachableDelay, таким образом эти элементы данныз будут перепроверяться более одного раза прежде чем узел сети станет недоступным.

Параметр UnavailableDelay определяет как часто элементы данных будут перепроверяться пока узел сети недоступен.

По умолчанию - 60 секунд (таким образом в этом случае "временное отключение", из файла журнала выше, будет означать отключение проверок сроком на одну минуту).

Когда соединение c узлом сети будет восстановлено, мониторинг вернется к нормальному режиму автоматически:

enabling Zabbix agent checks on host [New host]: host became available