6 Настройки недостижимости/недоступности хостов

Обзор

Несколько параметров конфигурации определяют каким образом Zabbix сервер должен вести себя, если агентские проверки (Zabbix, SNMP, IPMI, JMX) завершаются с ошибками и хост становится недостижимым.

Недостижимый узел сети

Узел сети считается недостижимым после ошибочной проверке (сетевая ошибка, превышение времени ожидания) через Zabbix, SNMP, IPMI или JMX агенты. Обратите внимание, что активные проверки Zabbix агента никак не влияют на доступность узла сети.

Начиная с Zabbix 2.4.7, если проверка другого элемента данных будет успешной между двумя неудачными проверками проблемных элементов данных, то в этом случае без влияния на доступность узла сети проблемный элемент данных маркируется как неподдерживаемый после второй неудачной проверки. Такое поведение было удалено с Zabbix 2.4.8.

С этого момента UnreachableDelay определяет как часто узел сети будет повторно проверяться, используя один из элементов данных (включая LLD правила), в ситуации недостижимости и такие повторные проверки выполняются уже с помощью unreachable поллеров. По умолчанию 15 секунд до следующей проверки.

В журнале Zabbix сервера недостижимость записывается сообщениями подобными следующим:

Zabbix agent item [system.cpu.load[percpu,avg1]] on host [New host] failed: first network error, wait for 15 seconds
       Zabbix agent item [system.cpu.load[percpu,avg15]] on host [New host] failed: another network error, wait for 15 seconds

Обратите внимание, что указывается какой точно элемент данных выполнился с ошибкой и тип этого элемента данных (Zabbix агент).

Параметр Timeout также влияет на то, как быстро элемент данных будет проверен повторно во течении периода недостижимости. Если время ожидания 20 секунд и UnreachableDelay 30 секунд, следующая проверка будет через 50 секунд после первой попытки.

Параметр UnreachablePeriod определяет общую длительность периода недостижимости. По умолчанию, UnreachablePeriod 45 секунд. UnreachablePeriod должен быть в несколько раз больше, чем UnreachableDelay, так чтобы элементы данных проверялись повторно более одного раза до того момента, как узлы сети станут недоступными.

Если нежостижимый узел сети заработает, наблюдение за узлом сети вернется к нормальному режиму автоматически:

resuming Zabbix agent checks on host "New host": connection restored

Недоступный узел сети

После того как UnreachablePeriod завершится и узел сети не стал доступным, такой узел сети считается недоступным.

В журнал Zabbix сервера подобное записывается примерно следующим сообщением:

temporarily disabling Zabbix agent checks on host [New host]: host unavailable

и в веб-интерфейсе иконка доступности узла сети меняет свой цвет с зеленого на красный (обратите внимание, что при наведении указателя мыши отобразится подсказка с описанием ошибки):

Параметр UnavailableDelay определяет, как часто элементы данных будут проверяться повторно пока узел сети недоступен.

По умолчанию - раз в 60 секунд (таким образом, в этом случае "временное отключение" из файла журнала выше будет означать деактивацию проверок сроком на одну минуту).

Когда соединение c узлом сети будет восстановлено, наблюдение за узлом сети вернется к нормальному режиму автоматически:

enabling Zabbix agent checks on host [New host]: host became available