Ad Widget

**Kos** · 10-03-2020, 09:45

Если я правильно понимаю логику работы сервера Zabbix, то одной из его особенностей является то, что все поступающие новые данные сериализуются и обрабатываются последовательно независимо друг от друга: на каждое новое значение полностью пересчитывается триггер, в состав которого входит данная метрика. И никто не гарантирует порядок обработки этих значений в случае, когда, по Вашему мнению, они приходят "одновременно".

Скажем, в данном случае используются две метрики: web.test.fail и web.test.error. По логике, они приходят одновременно; но обрабатываться всё равно будут последовательно и неизвестно, в каком именно порядке. Запросто может оказаться, что первой будет обработано новое значение метрики web.test.fail (пришедшая в 12:22:09 вторая подряд единица). Триггер пересчитывается, в состав триггера входит также и метрика web.test.error; однако, новое её значение ещё находится в очереди на обработку, и выражение web.test.error[...]str(Timeout was reached,#2) обрабатывает последние два значения из базы (за 12:20:58 PM и за 01:37:37 AM), одно из которых искомую строку содержит - поэтому триггерная функция str() возвращает единицу, и триггер срабатывает.
Сразу же за этим обрабатывается следующее значение из очереди: новое значение для метрики web.test.error. Триггер снова пересчитывается целиком, в этот раз уже функция str() вернёт ноль; но поздно: триггер уже сработал, и более того - условие для Recovery не позволяет ему тут же закрыться обратно (он будет висеть в состоянии PROBLEM, пока последние три значения метрики web.test.fail не вернут нули).

Решением может являться, например, проверка "свежести" последнего значения нужной метрики с помощью функции count().
"Свежим" можно считать значение, возраст которого заведомо меньше интервала опроса.
Скажем, для данного случая можно модифицировать условие триггера следующим образом:

Code:

{<hostname>_FROM_BARNAUL:web.test.fail[Check HTTPS port 8081].min(#2)}>0
and
{<hostname>_FROM_BARNAUL:web.test.error[Check HTTPS port 8081].count(60)}>0
and
{<hostname>_FROM_BARNAUL:web.test.error[Check HTTPS port 8081].str(Timeout was reached,#2)}=1

Как видно из скриншота, интервал опроса составляет около 70 секунд. Поэтому для count() используем параметр "60 секунд": функция str() будет вычисляться только в том случае, если последнее значение для метрики web.test.error пришло не ранее чем минуту назад.

Ad Widget

Триггер web мониторинга

Триггер web мониторинга

Comment