Ad Widget

**zar** · 07-04-2021, 11:51

Originally posted by Victor Vislobokov

Народ, поделитесь, плиз. Может и нет универсального решения, но хотя бы послушать других людей, кто как выходит из положения.

Для тех кто не в теме. Флаппинг - это многократная смена состояния триггера за короткое время. В других системах мониторинга, например в nagios, есть встроенная защита от флаппинга. В Zabbix'е такого нет (насколько мне известно).
Чем плох флаппинг? Допустим у нас есть хост, на котором в течении 5 минут (опрос каждую минуту) нагрузка (Load Average) изменяется от нормально до критичного значения и обратно несколько раз. В итоге мы имеем постоянно мигающий триггер в web-интерфейсе, оповещения (если они настроены) о возникновении проблемы и её закрытии. Как было бы логино (в первом приближении)? Если в течении одной минуты уровень LA прыгнул - зажёгся триггер, в следующую минуту уровень LA упал - триггер потух, в следующую минуту уровень LA прыгнул - считаем, что флаппинг, триггер не зажигаем, ждём ещё минуту, если уровень LA по прежнему высок - зажигаем триггер.

так а не проще увеличить тогда просто время ожидания до 5х минут? т.е. если в течение 5х минут высокие значения - сработка
вроде че то такое:
system.cpu.load[percpu,avg1].avg(5m)}>15

или я не правильн понял...

**Victor Vislobokov** · 07-04-2021, 12:28

Я привёл мониторинг LA для примера, но есть куча других метрик на которые надо реагировать оперативно. При предложенном вами подходе, мы 5 минут не будем получать сработок НИКОГДА. Тут же другой подход нужен, чтобы бороться с частым "морганием". Т.е. если "моргания" нет, то мы получаем сработку сразу.

**Semiadmin** · 07-04-2021, 20:34

Originally posted by Victor Vislobokov

Если в течении одной минуты уровень LA прыгнул - зажёгся триггер, в следующую минуту уровень LA упал - триггер потух, в следующую минуту уровень LA прыгнул - считаем, что флаппинг, триггер не зажигаем, ждём ещё минуту, если уровень LA по прежнему высок - зажигаем триггер.

Не особенно логичный алгоритм, логичнее просто гасить триггер не сразу, а когда все устаканится. А это в Zabbix решается при помощи условия восстановления триггера.

**Victor Vislobokov** · 09-04-2021, 12:21

Можно и гасить триггер не сразу, дело не в этом.
К сожалению, предложенное вами на решение не тянет. В том же nagios никаких дополнительных условий писать не нужно - ситуацию отрабатывает сама система мониторинга.
Я надеялся что откликов на тему будет много и разные варианты будут описаны, но видимо либо ничего нет, либо народ не очень заинтересован.
В любом случае, спасибо за ответ!

**zar** · 12-04-2021, 06:07

Originally posted by Victor Vislobokov

Можно и гасить триггер не сразу, дело не в этом.
К сожалению, предложенное вами на решение не тянет. В том же nagios никаких дополнительных условий писать не нужно - ситуацию отрабатывает сама система мониторинга.
Я надеялся что откликов на тему будет много и разные варианты будут описаны, но видимо либо ничего нет, либо народ не очень заинтересован.
В любом случае, спасибо за ответ!

а что если делать проверку тригера? вроде же как я помню можно выставить условия для того что если такой то тригер уже срабатывал в N минут - то ни чего не делать или наоборот...

**Victor Vislobokov** · 12-04-2021, 06:54

Что-то я не припомню такой возможности (проверять срабатывал ли триггер за последние N минут). Можно ссылочку на документацию?

Ad Widget

А кто как борется с флаппингом?

А кто как борется с флаппингом?

Comment

Comment

Comment

Comment

Comment

Comment