Ad Widget

Collapse

Почему срабатывает триггер раньше времени

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Elis
    Member
    • Oct 2018
    • 71

    #1

    Почему срабатывает триггер раньше времени

    Привет. Есть элемент Agent ping, каждое утро пропадает связь(пинг), по времени, меньше минуты. В триггере, функция nodata настроена сработка только через минуту пропадания связи.
    Code:
    {Symmetra wm:agent.ping.nodata(60s)}=1
    В итоге, событие длится 30 секунд, а триггер, всё равно срабатывает. Что делать?
  • Kos
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Aug 2015
    • 3404

    #2
    В итоге, событие длится 30 секунд, а триггер, всё равно срабатывает.
    Какое именно событие длится 30 секунд? Если "триггер в состоянии ПРОБЛЕМА", то оно является уже следствием срабатывания триггера.
    Какой у вас интервал опроса для элемента данных "Agent ping"?
    Сколько было пропаданий, если посмотреть список полученных значений для этой метрики в Latest data?

    Comment

    • Elis
      Member
      • Oct 2018
      • 71

      #3
      Какое именно событие длится 30 секунд? Если "триггер в состоянии ПРОБЛЕМА", то оно является уже следствием срабатывания триггера.
      Событие длительность потери связи (по пингу)

      Какой у вас интервал опроса для элемента данных "Agent ping"?
      30 секунд

      Сколько было пропаданий, если посмотреть список полученных значений для этой метрики в Latest data?
      настроено email оповещение, в тексте которого хорошо прослеживается длительность потери связи 33 секунды.
      Первое письмо о сработке
      Code:
      Начало события: 06:31:36 2018.11.14
      Второе письмо о норме
      Code:
      Конец события: 06:32:03 2018.11.14
      
      Длительность: 0m
      а вот данные, которые были получены с 06:30:00 до 06:33:00
      Code:
       [TABLE]
      [TR]
      [TD]14.11.2018 06:32:33[/TD]
       			[TD] 			
       Up (1) 			[/TD]
       		[/TR]
      [TR]
      [TD]14.11.2018 06:32:03[/TD]
       			[TD] 			
       Up (1) 			[/TD]
       		[/TR]
      [TR]
      [TD]14.11.2018 06:30:33[/TD]
       			[TD] 			
       Up (1) 			[/TD]
       		[/TR]
      [TR]
      [TD]14.11.2018 06:30:03[/TD]
       			[TD] 			
       Up (1) 			[/TD]
       		[/TR]
      [/TABLE]

      Вопрос то в том, почему сработал триггер раньше времени? {Symmetra wm:agent.ping.nodata(60s)}=1
      он по условию должен ждать 60 сек
      Мне не надо фиксировать такие коротки потери связи


      Comment

      • Kos
        Senior Member
        Zabbix Certified SpecialistZabbix Certified Professional
        • Aug 2015
        • 3404

        #4
        У вас разрыв между принятыми значениями больше минуты, поэтому и было срабатывание.
        А то, что вы получаете в письме, - это не время начала события, а время получения последнего (на момент события) значения. Почему так - отдельный вопрос, надо смотреть ваш шаблон почтового уведомления (скорее всего, там стоит не тот макрос). События по триггерной функции nodata() генерируются в 00 и 30 секунд каждой минуты; у вас же указано 06:31:36 - это что-то другое. Можно сравнить со временем срабатывания триггера (Monitoring -> Events или Monitoring -> Problems, в зависимости от версии Zabbix).

        Comment

        • Elis
          Member
          • Oct 2018
          • 71

          #5
          вот текст действие восстановления
          Code:
          конец события: {event.recovery.time} {event.recovery.date}
          
          длительность: {event.age}
          в документации макрос {event.age} описан как возраст события, который вызвал действие. полезно в эскалированных сообщениях.

          я не знаю какой макрос применить, чтобы зафиксировать количество минут, когда узел был не на связи.

          Comment

          • Kos
            Senior Member
            Zabbix Certified SpecialistZabbix Certified Professional
            • Aug 2015
            • 3404

            #6
            Что-то я запутался немного.
            Originally posted by Elis
            настроено email оповещение, в тексте которого хорошо прослеживается длительность потери связи 33 секунды.
            Первое письмо о сработке
            Code:
            Начало события: 06:31:36 2018.11.14
            Второе письмо о норме
            Code:
            Конец события: 06:32:03 2018.11.14
            
            Длительность: 0m
            Между письмами о начале и окончании проблемы - действительно, меньше минуты (27 секунд, не 33).
            Но это не "длительность потери связи".

            Вы же сами показываете табличку с данными:
            Originally posted by Elis
            а вот данные, которые были получены с 06:30:00 до 06:33:00
            Code:
             [TABLE]
            [TR]
            [TD]14.11.2018 06:32:33[/TD]
            [TD]
            Up (1) [/TD]
            [/TR]
            [TR]
            [TD]14.11.2018 06:32:03[/TD]
            [TD]
            Up (1) [/TD]
            [/TR]
            [TR]
            [TD]14.11.2018 06:30:33[/TD]
            [TD]
            Up (1) [/TD]
            [/TR]
            [TR]
            [TD]14.11.2018 06:30:03[/TD]
            [TD]
            Up (1) [/TD]
            [/TR]
            [/TABLE]
            В 06:30:03 и 06:30:33 ответ на пинг есть.
            В 06:31:03 и 06:31:33 ответа нет. Со времени последнего успешного ответа на пинг проходит более минуты, в результате 06:31:36 срабатывает триггер (начало проблемы).
            В 06:32:03 приходит следующий ответ, проблема закрывается, приходит уведомление об окончании проблемы.
            Срабатывает в точности так, как настроено.
            Что работает не так, как вы ожидали?

            Comment

            • Elis
              Member
              • Oct 2018
              • 71

              #7
              Kos спасибо, за разъяснения, действительно пинг пропадал, ровно на минуту, а почему тогда в письме восстановления приходит 0m. Правильный я макрос {EVENT.AGE} выбираю? ведь это время события, в письме должна была прийти минута, а не ноль

              Comment

              • Kos
                Senior Member
                Zabbix Certified SpecialistZabbix Certified Professional
                • Aug 2015
                • 3404

                #8
                {event.age}- это не время пропадания пинга, а время, в течение которого триггер находился в состоянии "проблема". у вас это время составило чуть меньше чем полминуты, поэтому с точностью до минут оно округлилось до нуля.

                Comment

                • Elis
                  Member
                  • Oct 2018
                  • 71

                  #9
                  Code:
                   
                   Конец события: 06:32:03 2018.11.14  Длительность: 0m
                  хочу секунды, не хочу минуты

                  Comment

                  • Kos
                    Senior Member
                    Zabbix Certified SpecialistZabbix Certified Professional
                    • Aug 2015
                    • 3404

                    #10
                    Originally posted by Elis
                    Code:
                    Конец события: 06:32:03 2018.11.14 Длительность: 0m
                    хочу секунды, не хочу минуты
                    Ну, извините. Это уже к разработчикам, чтобы макрос мог раскрываться как-то по-другому.

                    Comment

                    • Elis
                      Member
                      • Oct 2018
                      • 71

                      #11
                      спасибо, наверное просто не буду использовать этот макрос. А с триггером решено увеличить время до двух минут

                      Comment

                      Working...