Ad Widget

Collapse

А кто как борется с флаппингом?

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Victor Vislobokov
    Senior Member
    • Aug 2018
    • 298

    #1

    А кто как борется с флаппингом?

    Народ, поделитесь, плиз. Может и нет универсального решения, но хотя бы послушать других людей, кто как выходит из положения.

    Для тех кто не в теме. Флаппинг - это многократная смена состояния триггера за короткое время. В других системах мониторинга, например в nagios, есть встроенная защита от флаппинга. В Zabbix'е такого нет (насколько мне известно).
    Чем плох флаппинг? Допустим у нас есть хост, на котором в течении 5 минут (опрос каждую минуту) нагрузка (Load Average) изменяется от нормально до критичного значения и обратно несколько раз. В итоге мы имеем постоянно мигающий триггер в web-интерфейсе, оповещения (если они настроены) о возникновении проблемы и её закрытии. Как было бы логино (в первом приближении)? Если в течении одной минуты уровень LA прыгнул - зажёгся триггер, в следующую минуту уровень LA упал - триггер потух, в следующую минуту уровень LA прыгнул - считаем, что флаппинг, триггер не зажигаем, ждём ещё минуту, если уровень LA по прежнему высок - зажигаем триггер.
  • zar
    Senior Member
    • Mar 2018
    • 148

    #2
    Originally posted by Victor Vislobokov
    Народ, поделитесь, плиз. Может и нет универсального решения, но хотя бы послушать других людей, кто как выходит из положения.

    Для тех кто не в теме. Флаппинг - это многократная смена состояния триггера за короткое время. В других системах мониторинга, например в nagios, есть встроенная защита от флаппинга. В Zabbix'е такого нет (насколько мне известно).
    Чем плох флаппинг? Допустим у нас есть хост, на котором в течении 5 минут (опрос каждую минуту) нагрузка (Load Average) изменяется от нормально до критичного значения и обратно несколько раз. В итоге мы имеем постоянно мигающий триггер в web-интерфейсе, оповещения (если они настроены) о возникновении проблемы и её закрытии. Как было бы логино (в первом приближении)? Если в течении одной минуты уровень LA прыгнул - зажёгся триггер, в следующую минуту уровень LA упал - триггер потух, в следующую минуту уровень LA прыгнул - считаем, что флаппинг, триггер не зажигаем, ждём ещё минуту, если уровень LA по прежнему высок - зажигаем триггер.
    так а не проще увеличить тогда просто время ожидания до 5х минут? т.е. если в течение 5х минут высокие значения - сработка
    вроде че то такое:
    system.cpu.load[percpu,avg1].avg(5m)}>15

    или я не правильн понял...

    Comment

    • Victor Vislobokov
      Senior Member
      • Aug 2018
      • 298

      #3
      Я привёл мониторинг LA для примера, но есть куча других метрик на которые надо реагировать оперативно. При предложенном вами подходе, мы 5 минут не будем получать сработок НИКОГДА. Тут же другой подход нужен, чтобы бороться с частым "морганием". Т.е. если "моргания" нет, то мы получаем сработку сразу.

      Comment

      • Semiadmin
        Senior Member
        • Oct 2014
        • 1625

        #4
        Originally posted by Victor Vislobokov
        Если в течении одной минуты уровень LA прыгнул - зажёгся триггер, в следующую минуту уровень LA упал - триггер потух, в следующую минуту уровень LA прыгнул - считаем, что флаппинг, триггер не зажигаем, ждём ещё минуту, если уровень LA по прежнему высок - зажигаем триггер.
        Не особенно логичный алгоритм, логичнее просто гасить триггер не сразу, а когда все устаканится. А это в Zabbix решается при помощи условия восстановления триггера.

        Comment

        • Victor Vislobokov
          Senior Member
          • Aug 2018
          • 298

          #5
          Можно и гасить триггер не сразу, дело не в этом.
          К сожалению, предложенное вами на решение не тянет. В том же nagios никаких дополнительных условий писать не нужно - ситуацию отрабатывает сама система мониторинга.
          Я надеялся что откликов на тему будет много и разные варианты будут описаны, но видимо либо ничего нет, либо народ не очень заинтересован.
          В любом случае, спасибо за ответ!

          Comment

          • zar
            Senior Member
            • Mar 2018
            • 148

            #6
            Originally posted by Victor Vislobokov
            Можно и гасить триггер не сразу, дело не в этом.
            К сожалению, предложенное вами на решение не тянет. В том же nagios никаких дополнительных условий писать не нужно - ситуацию отрабатывает сама система мониторинга.
            Я надеялся что откликов на тему будет много и разные варианты будут описаны, но видимо либо ничего нет, либо народ не очень заинтересован.
            В любом случае, спасибо за ответ!
            а что если делать проверку тригера? вроде же как я помню можно выставить условия для того что если такой то тригер уже срабатывал в N минут - то ни чего не делать или наоборот...

            Comment

            • Victor Vislobokov
              Senior Member
              • Aug 2018
              • 298

              #7
              Что-то я не припомню такой возможности (проверять срабатывал ли триггер за последние N минут). Можно ссылочку на документацию?

              Comment

              Working...