14 Настройки недостижимости/недоступности хостов

Обзор

Несколько параметров конфигурации определяют каким образом Zabbix сервер должен вести себя, если агентские проверки (Zabbix, SNMP, IPMI, JMX) завершаются с ошибками и хост становится недостижимым.

Недостижимый узел сети

Узел сети считается недостижимым после ошибки при проверке (сетевая ошибка, превышение времени ожидания) при помощи Zabbix, SNMP, IPMI или JMX агентов. Возьмите на заметку, что активные проверки Zabbix агента никак не влияют на доступность узла сети.

С этого момента UnreachableDelay определяет как часто узел сети будет повторно проверяться, используя один из элементов данных (включая LLD правила), в ситуации недостижимости и такие повторные проверки выполняются уже с помощью unreachable поллеров (или IPMI поллеров для IPMI проверок). По умолчанию 15 секунд до следующей проверки.

В журнале Zabbix сервера недостижимость записывается сообщениями подобными следующим:

Zabbix agent item [system.cpu.load[percpu,avg1]] on host [New host] failed: first network error, wait for 15 seconds
       Zabbix agent item [system.cpu.load[percpu,avg15]] on host [New host] failed: another network error, wait for 15 seconds

Обратите внимание, что указывается какой точно элемент данных выполнился с ошибкой и тип этого элемента данных (Zabbix агент).

Параметр Timeout также влияет на то, как быстро элемент данных будет проверен повторно во течении периода недостижимости. Если время ожидания 20 секунд и UnreachableDelay 30 секунд, следующая проверка будет через 50 секунд после первой попытки.

Параметр UnreachablePeriod определяет общую длительность периода недостижимости. По умолчанию, UnreachablePeriod 45 секунд. UnreachablePeriod должен быть в несколько раз больше, чем UnreachableDelay, так чтобы элементы данных проверялись повторно более одного раза до того момента, как узлы сети станут недоступными.

Если нежостижимый узел сети заработает, наблюдение за узлом сети вернется к нормальному режиму автоматически:

resuming Zabbix agent checks on host "New host": connection restored

Недоступный узел сети

После того как UnreachablePeriod завершится и узел сети не стал доступным, такой узел сети считается недоступным.

В журнал Zabbix сервера подобное записывается примерно следующим сообщением:

temporarily disabling Zabbix agent checks on host [New host]: host unavailable

и в веб-интерфейсе иконка доступности узла сети меняет свой цвет с зеленого (или серого) на красный (обратите внимание, что при наведении указателя мыши отобразится подсказка с описанием ошибки):

Параметр UnavailableDelay определяет, как часто элементы данных будут проверяться повторно пока узел сети недоступен.

По умолчанию - раз в 60 секунд (таким образом, в этом случае "временное отключение" из файла журнала выше будет означать деактивацию проверок сроком на одну минуту).

Когда соединение c узлом сети будет восстановлено, наблюдение за узлом сети вернется к нормальному режиму автоматически:

enabling Zabbix agent checks on host [New host]: host became available

Unavailable host

After the UnreachablePeriod ends and the host has not reappeared, the host is treated as unavailable.

In the server log it is indicated by messages like these:

temporarily disabling Zabbix agent checks on host "New host": host unavailable

and in the frontend the host availability icon for the respective interface goes from green (or gray) to red (note that on mouseover a tooltip with the error description is displayed):

The UnavailableDelay parameter defines how often a host is checked during host unavailability.

By default it is 60 seconds (so in this case "temporarily disabling", from the log message above, will mean disabling checks for one minute).

When the connection to the host is restored, the monitoring returns to normal automatically, too:

enabling Zabbix agent checks on host "New host": host became available