Обнаружение проблем

Как только данные собраны с использованием различных методов, доступных в Zabbix, начинается процесс анализа собранных данных. Правила анализа данных, или выражение триггера, в терминах Zabbix, регламентируют логические определения состояния проблемы по данным, полученным от наблюдаемых хостов. Когда порог триггера достигнут, триггер меняет свое состояние с ОК на ПРОБЛЕМА, а также обратно, когда данные опускаются ниже порога.

Прогноз

Хотя наличие порогов для определения проблемных ситуаций не помешает, было бы еще лучше иметь возможность прогноза проблем. Для таких целей в Zabbix доступны функции прогнозирования. Zabbix анализирует динамику входящих данных и строит прогноз дальнейшего изменения данных, что дает пользователям возможность действовать на упреждение.

Прогноз времени
Когда мы достигнем заданного значения?
Прогнозирование, когда мы достигнем заданного значения
Прогноз значения
Прогнозирование значения метрики после заданного периода времени
Прогнозирование значения метрики после заданного периода времени

Чрезвычайно гибкие определения порогов

Zabbix дает своим пользователям очень гибкие, интеллектуальные опции определения порогов. Хотя порог триггера может быть простым, таким как "больше, чем x", также возможно использование всех логических операций, таких как деление, умножение, неравенство, логические И и ИЛИ.

Привязка одного или нескольких элементов данных или узлов сети

Использование множества разных элементов данных с разных узлов сети для построения выражения триггера. Такой подход позволяет построить очень сложные, интеллектуальные пороги, которые минимизируют ложные срабатывания и, таким образом, администраторы смогут сконцентрироваться на реальных проблемах.

Анализ данных истории

Сравнение текущего состояния данных с данными полученными некоторое время назад. Можно сравнивать аналогичные периоды времени, скажем текущий Понедельник с предыдущим Понедельником или сегодняшнюю вторую половину дня со второй половиной дня 2 неделями ранее. Такой подход очень удобен, когда нагрузка на инфраструктуру не линейна и сравнение Понедельника утра со Вторником второй половины дня просто не даст никакой ценной информации.

Сравнение с нормой, где нормой является состояние системы в прошлом. Например: средняя загрузка CPU за последний час превышает в 2 раза загрузку CPU за тот же самый период неделей ранее.

Определение аномалий

Гистерезис

Гистерезис - прекрасная функция, которая позволяет избежать ложных срабатываний, которые могут возникнуть, когда входящие данные колеблются около простого порога. Гистерезис имеет верхний и нижний пределы, которые переводят триггер в состояние проблемы при достижении верхнего предела и возвращают триггер в нормальное состояние, когда полученные данные меньше нижнего предела.

Ложные срабатывания
Ложные срабатывания
Верхний предел = Нижний предел
Наличие гистерезиса
Гистерезис
Заданы разные верхний и нижний пределы
Предотвращение ложных срабатываний
Более нет ложных срабатываний

Зависимости

В любой IT-инфраструктуре существует множество зависимостей, когда ошибка на одной ноде ответственна за сбой в работе множества других частей инфраструктуры. Зависимости могут вырасти во многоуровневые зависимости, когда отсутствие свободного места на диске приводит к сбою в ОС, на которой работает база данных. К этому моменту пользователи CRM, CMS, BPMS, и многих других бизнес-приложений не смогут выполнять свои задачи. Система мониторинга без настроенных зависимостей будет генерировать десятки или сотник оповещений и отсылать сотни или тысячи e-mail сообщений, информирующих о том, что все эти системы не работоспособны. В качестве альтернативы, разумное использование функции зависимостей приведет только к одному оповещению, которое информирует об отсутствии места на диске, в то же время все остальные оповещения будут скрыты.

Без зависимостей:

Каждый триггер извещает о проблеме
Реальная проблема: Диск заполнен
  • Выяснение реальной причины множества проблем
  • Пропуск зависимых оповещений
  • В веб-интерфейсе зависимые триггеры скрываются
С зависимостями:

Извещение только об основной проблеме

Уровни критичности

Определение уровней важности триггеров основывается на уровне критичности. Поскольку не все триггеры имеют одинаковый уровень критичности, на триггер можно назначать один из шести уровней важности. Уровень важности затем применяется к визуальному представлению триггеров и, его можно использовать для тонкой настройки реакции на события о проблемах.

Важности используются для:
  • Визуального представления триггеров
  • Аудио в глобальных оповещениях
  • При выборе канала оповещения (высокая важность - СМС, остальные важности - email)
Уровни критичности триггеров

Приступите к работе за 10 минут, абсолютно БЕСПЛАТНО

Скачать Zabbix

Zabbix - Бесплатное программное обеспечение с открытым исходным кодом. Ограничения и скрытые расходы отсутствуют.