Доброго времени суток.
Имеем:
Заббикс-сервер 3.0.4 под Debian 7 в OpenVZ контейнере. БД (под MySQL) вынесли на отдельный физический сервер.
Загрузка заббикс сервера:
Количество узлов сети (активированных/деактивированных/шаблонов) 354 311 / 0 / 43
Количество элементов данных (активированных/деактивированных/неподдерживаемых) 7327 1450 / 5840 / 37
Количество триггеров (активированных/деактивированных [проблема/ок]) 892 892 / 0 [2 / 890]
Требуемое быстродействие сервера, новые значения в секунду 22.17
Проблема:
Большое время "узнавания" об аварии. Есть определенное количество узлов, до которых отправляется пинг. Опрос происходит раз в 60 секунд. На произвольном узле я меняю ip-адрес на заведомо неправильный и жду когда загорится тревога на дашборде. Тревога загорается через 4-6 минут, при том что опрос происходит (должен происходить) раз в минуту.
В Администрирование-Очередь абсолютно все значения равны нулю.
Есть очень интересный момент в Мониторинг-ПоследниеДанные для этого узла.
Описываю хронологически:
18.08.2016 13:03:43 Up (1) - еще ничего не делал. получил значение от узла, сразу после этого меняю узлу ip-адресс, как описанно выше, применяю и жду.
18.08.2016 13:04:43 Up (1) - спустя секунд 40 после изменения ip-адреса на "неотвечающий" якобы приходит от него ответ. ждем дальше
18.08.2016 13:05:43 Down (0) - первое сообщение о дауне узла, в дашборде при этом аварии нет
18.08.2016 13:06:43 Down (0)
18.08.2016 13:07:43 Down (0) - только через секунд 30 после 3-го сообщения о дауне на дашборде загорается аларм. Пробовал в разных браузерх, чтобы исключить, что страничка закешировалась
В итоге имеем, что от аварии до ее обнаружения оператором (визуально на дашборде и уведомлением на почту) проходит 5 минут. Должно ли оно работать так, как я это описал выше или что-то недонастроено? И как можно сократить этот интервал?
Имеем:
Заббикс-сервер 3.0.4 под Debian 7 в OpenVZ контейнере. БД (под MySQL) вынесли на отдельный физический сервер.
Загрузка заббикс сервера:
Количество узлов сети (активированных/деактивированных/шаблонов) 354 311 / 0 / 43
Количество элементов данных (активированных/деактивированных/неподдерживаемых) 7327 1450 / 5840 / 37
Количество триггеров (активированных/деактивированных [проблема/ок]) 892 892 / 0 [2 / 890]
Требуемое быстродействие сервера, новые значения в секунду 22.17
Проблема:
Большое время "узнавания" об аварии. Есть определенное количество узлов, до которых отправляется пинг. Опрос происходит раз в 60 секунд. На произвольном узле я меняю ip-адрес на заведомо неправильный и жду когда загорится тревога на дашборде. Тревога загорается через 4-6 минут, при том что опрос происходит (должен происходить) раз в минуту.
В Администрирование-Очередь абсолютно все значения равны нулю.
Есть очень интересный момент в Мониторинг-ПоследниеДанные для этого узла.
Описываю хронологически:
18.08.2016 13:03:43 Up (1) - еще ничего не делал. получил значение от узла, сразу после этого меняю узлу ip-адресс, как описанно выше, применяю и жду.
18.08.2016 13:04:43 Up (1) - спустя секунд 40 после изменения ip-адреса на "неотвечающий" якобы приходит от него ответ. ждем дальше
18.08.2016 13:05:43 Down (0) - первое сообщение о дауне узла, в дашборде при этом аварии нет
18.08.2016 13:06:43 Down (0)
18.08.2016 13:07:43 Down (0) - только через секунд 30 после 3-го сообщения о дауне на дашборде загорается аларм. Пробовал в разных браузерх, чтобы исключить, что страничка закешировалась
В итоге имеем, что от аварии до ее обнаружения оператором (визуально на дашборде и уведомлением на почту) проходит 5 минут. Должно ли оно работать так, как я это описал выше или что-то недонастроено? И как можно сократить этот интервал?
Comment