Ad Widget

Collapse

Долго загорается аларм

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Smugo
    Junior Member
    • Aug 2016
    • 2

    #1

    Долго загорается аларм

    Доброго времени суток.

    Имеем:
    Заббикс-сервер 3.0.4 под Debian 7 в OpenVZ контейнере. БД (под MySQL) вынесли на отдельный физический сервер.
    Загрузка заббикс сервера:
    Количество узлов сети (активированных/деактивированных/шаблонов) 354 311 / 0 / 43
    Количество элементов данных (активированных/деактивированных/неподдерживаемых) 7327 1450 / 5840 / 37
    Количество триггеров (активированных/деактивированных [проблема/ок]) 892 892 / 0 [2 / 890]
    Требуемое быстродействие сервера, новые значения в секунду 22.17

    Проблема:
    Большое время "узнавания" об аварии. Есть определенное количество узлов, до которых отправляется пинг. Опрос происходит раз в 60 секунд. На произвольном узле я меняю ip-адрес на заведомо неправильный и жду когда загорится тревога на дашборде. Тревога загорается через 4-6 минут, при том что опрос происходит (должен происходить) раз в минуту.

    В Администрирование-Очередь абсолютно все значения равны нулю.

    Есть очень интересный момент в Мониторинг-ПоследниеДанные для этого узла.
    Описываю хронологически:
    18.08.2016 13:03:43 Up (1) - еще ничего не делал. получил значение от узла, сразу после этого меняю узлу ip-адресс, как описанно выше, применяю и жду.
    18.08.2016 13:04:43 Up (1) - спустя секунд 40 после изменения ip-адреса на "неотвечающий" якобы приходит от него ответ. ждем дальше
    18.08.2016 13:05:43 Down (0) - первое сообщение о дауне узла, в дашборде при этом аварии нет
    18.08.2016 13:06:43 Down (0)
    18.08.2016 13:07:43 Down (0) - только через секунд 30 после 3-го сообщения о дауне на дашборде загорается аларм. Пробовал в разных браузерх, чтобы исключить, что страничка закешировалась

    В итоге имеем, что от аварии до ее обнаружения оператором (визуально на дашборде и уведомлением на почту) проходит 5 минут. Должно ли оно работать так, как я это описал выше или что-то недонастроено? И как можно сократить этот интервал?
    Last edited by Smugo; 18-08-2016, 13:00.
  • yukra
    Senior Member
    • Apr 2013
    • 1359

    #2
    Originally posted by Smugo
    Доброго времени суток.

    Имеем:
    Заббикс-сервер 3.0.4 под Debian 7 в OpenVZ контейнере. БД (под MySQL) вынесли на отдельный физический сервер.
    Загрузка заббикс сервера:
    Количество узлов сети (активированных/деактивированных/шаблонов) 354 311 / 0 / 43
    Количество элементов данных (активированных/деактивированных/неподдерживаемых) 7327 1450 / 5840 / 37
    Количество триггеров (активированных/деактивированных [проблема/ок]) 892 892 / 0 [2 / 890]
    Требуемое быстродействие сервера, новые значения в секунду 22.17

    Проблема:
    Большое время "узнавания" об аварии. Есть определенное количество узлов, до которых отправляется пинг. Опрос происходит раз в 60 секунд. На произвольном узле я меняю ip-адрес на заведомо неправильный и жду когда загорится тревога на дашборде. Тревога загорается через 4-6 минут, при том что опрос происходит (должен происходить) раз в минуту.

    В Администрирование-Очередь абсолютно все значения равны нулю.

    Есть очень интересный момент в Мониторинг-ПоследниеДанные для этого узла.
    Описываю хронологически:
    18.08.2016 13:03:43 Up (1) - еще ничего не делал. получил значение от узла, сразу после этого меняю узлу ip-адресс, как описанно выше, применяю и жду.
    18.08.2016 13:04:43 Up (1) - спустя секунд 40 после изменения ip-адреса на "неотвечающий" якобы приходит от него ответ. ждем дальше
    18.08.2016 13:05:43 Down (0) - первое сообщение о дауне узла, в дашборде при этом аварии нет
    18.08.2016 13:06:43 Down (0)
    18.08.2016 13:07:43 Down (0) - только через секунд 30 после 3-го сообщения о дауне на дашборде загорается аларм. Пробовал в разных браузерх, чтобы исключить, что страничка закешировалась

    В итоге имеем, что от аварии до ее обнаружения оператором (визуально на дашборде и уведомлением на почту) проходит 5 минут. Должно ли оно работать так, как я это описал выше или что-то недонастроено? И как можно сократить этот интервал?
    1) Выражение триггера смотрите, скорей всего в нем написано "если 3 последние проверки сфейлились, то тогда тревога"
    2) Смотри параметр StartPingers в конфиге заббикса и нагрузку "на пингеры"

    Comment

    • Smugo
      Junior Member
      • Aug 2016
      • 2

      #3
      Originally posted by yukra
      2) Смотри параметр StartPingers в конфиге заббикса и нагрузку "на пингеры"
      Поднял значение до 20 почти сразу после установки. В среднем Zabbix busy icmp pinger processes, in % колеблется от 14 до 18 процентов.

      Originally posted by yukra
      1) Выражение триггера смотрите, скорей всего в нем написано "если 3 последние проверки сфейлились, то тогда тревога"
      В этом и была проблема. Спасибо.

      Comment

      Working...