Ad Widget

Collapse

Ложные срабатывания триггеров

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • watto
    Member
    • Jun 2008
    • 47

    #1

    Ложные срабатывания триггеров

    Доброе время суток!
    Заметил глюк при мониторинге упсов по SNMP, постоянно срабатывает, к примеру, триггер "входное напряжение < 200", хотя если посмотреть историю элементов данных, ниже 200 там значений нет.

    Конфигурация элемента данных:
    SNMPv1 агент
    SNMP OID .1.3.6.1.4.1.318.1.1.1.3.2.1.0
    Ключ inputvoltage
    Тип Int 64

    Конфигурация триггера:
    {UPS1:inputvoltage.last(0)}<200

    Причем при срабатывании триггера параллельно проверял руками snmpwalk'ом, меньше 200 значения не опускались.

    Недавно обновлял ZABBIX до 1.6.7 (минорно, с 1.6.4, если не ошибаюсь), до этого момента таких проблем не всплывало.
  • watto
    Member
    • Jun 2008
    • 47

    #2
    Дополнение - ложные срабатывания наблюдаются не только на при snmp мониторинге. Сегодня обнаружил это на проверке доступности. Срабатывает триггер {Host:icmpping.sum(#3)}=0, хотя по истории значение постоянно 1. Где бы грабли поискать?
    Заббикс обновлен до 1.8. Ос CentOS.

    Comment

    • Firm
      Senior Member
      • Dec 2009
      • 342

      #3
      Я открыл похожую тему в англоязычной ветке - http://www.zabbix.com/forum/showthread.php?t=15080 CentOS 5.3 + Zabbix 1.8

      Пока идей нет

      Comment

      • watto
        Member
        • Jun 2008
        • 47

        #4
        Насколько я понял, в Вашем случае триггер не работает, а в моем - работает, но не так как надо

        Comment

        • Firm
          Senior Member
          • Dec 2009
          • 342

          #5
          Originally posted by watto
          Насколько я понял, в Вашем случае триггер не работает, а в моем - работает, но не так как надо
          Но ситуации схожие: на 1.6.х всё работало, после переезда на 1.8 - нет.

          Comment

          • watto
            Member
            • Jun 2008
            • 47

            #6
            Ну да, с этим согласен.

            Comment

            • Firm
              Senior Member
              • Dec 2009
              • 342

              #7
              Originally posted by watto
              Ну да, с этим согласен.
              В моём случае помогла смена '{Isp:icmpping.count(30,1)}<1' на '{Isp:icmpping.count(#5,1)}<1'

              Так что попробуйте сменить '{Host:icmpping.sum(#3)}=0' на '{Host:icmpping.count(#3,1)}<1' или '{Host:icmpping.count(#3,1)}=0' и посмотреть на результат. Если сработает, то открою ticket.

              Comment

              • watto
                Member
                • Jun 2008
                • 47

                #8
                Originally posted by firm
                В моём случае помогла смена '{isp:icmpping.count(30,1)}<1' на '{isp:icmpping.count(#5,1)}<1'

                Так что попробуйте сменить '{host:icmpping.sum(#3)}=0' на '{host:icmpping.count(#3,1)}<1' или '{host:icmpping.count(#3,1)}=0' и посмотреть на результат. Если сработает, то открою ticket.
                Нет, не сработало, ситуация та же.

                Comment

                • sergo
                  Member
                  • Dec 2009
                  • 99

                  #9
                  аналогичная ситуация, при snmp-мониторенге упсов пять-шесть раз в день вдруг начинает считать что APC: Run Time Remaining Critical Level - APC5000_219: < 10 минут
                  на графиках ничего подобного не наблюдаю, таймримейнинг меньше 2-х часов не падает
                  (аналогично zabbix 1.8 CentOS 5.3)

                  Comment

                  • watto
                    Member
                    • Jun 2008
                    • 47

                    #10
                    А на 1.6 тестировали?

                    Comment

                    • sergo
                      Member
                      • Dec 2009
                      • 99

                      #11
                      Originally posted by watto
                      А на 1.6 тестировали?
                      нет, заббикс впервые увидел две недели назад, посему и начал эпопею с ним сразу с версии 1.8

                      Comment

                      • watto
                        Member
                        • Jun 2008
                        • 47

                        #12
                        Ясно. Просто тут, судя по постам, проблема эта появилась в 1.8.

                        Comment

                        • sergeyfromkomi
                          Senior Member
                          • Dec 2009
                          • 126

                          #13
                          Сегодня столкнулся с такой же проблемой. Очевидно, что узел лежит(не пингуется), но при этом zabbix ( Zabbix 2.0.3 9.1-RELEASE) c интервалом 1,5 минуты (примерное время проверки узла), сообщает о поднятии узла и его падении. Во вложении есть скрин итема и тригера. Как решили проблему?
                          Attached Files

                          Comment

                          • skul
                            Junior Member
                            • May 2013
                            • 2

                            #14
                            То же самое, только с веб-мониторингом, надо чтобы триггер срабатывал после двух или трех ответов с ошибкой. По факту триггер срабатывает правильно именно после двух ошибок, далее находится минуту в статусе problem и потом возвращается в ОК.
                            Не знаю как решить эту проблему, ночью сервера бекапятся и сайты могут отвечать медленно.

                            Такие варианты пробовал

                            Code:
                            {scenario:web.test.fail[examplecom].last(#3)}#0 - этот я уже понял что не правильный, он третье, а не последнее значение.
                            {scenario:web.test.fail[examplecom].sum(#2)}=2 - этот срабатывает через две ошибки и потом начинает переключаться каждую минуту, примеры которые ниже, ведут себя так же.
                            ({trigger.value}=0&{scenario:web.test.fail[examplecom].sum(#2)}=2)|({trigger.value}=1&{scenario:web.test.fail[examplecom].sum(#2)}=0)
                            ({trigger.value}=0&{scenario:web.test.fail[examplecom].avg(2m)}=1)|({trigger.value}=1&{scenario:web.test.fail[examplecom].avg(3m)}=0)
                            ({trigger.value}=0&{scenario:web.test.fail[examplecom].min(2m)}=1)|({trigger.value}=1&{scenario:web.test.fail[examplecom].max(3m)}=0)
                            Подскажите, кто как решал такого рода проблему?

                            Comment

                            • skul
                              Junior Member
                              • May 2013
                              • 2

                              #15
                              Обновление до 2.0.6 решило проблему.
                              Появилось другая проблема, теперь net.tcp.service[ssh] и net.tcp.service[http] начали глючить на некоторых серверах иногда триггеры срабатывают.

                              Comment

                              Working...