Хотелось бы сказать, что на этом busy poller process я уже съел всех собак в своей округе, но нет. Даже не сильно гуглящиеся статьи писал, как с этим бороться, но... никогда не было и вот опять)
Короче. Имеется Zabbix 5.0.27. Нагрузка для некоторых смешная, около 60-65 значений в секунду. Пять баре металлюг серверов и порядка 60 виртуалок. Не буду подробно разукрашивать все случаи, но суть одна. Когда на сети начинаются проблемы и из-за этого отваливается куча (кучка) метрик, то busy poller process начинает уходить выше и выше, доходит до 100%. Чтобы понимать, что это проблемы на сети, у меня вот такой модный график уже есть давно.

Так вот в итоге недоступна может быть всего одна машина, а расколбас начинает затрагивать всех и вся, zabbix-сервер встаёт раком, куча алертов, в общем картина неприятная. Суть в том, что живые сервера, которые могут слать нормально метрики, перестают мониторится, заббикс не успевает по ним отрабатывать, что порождает новые алерты, нагрузку на pollers и дальнейший уход zabbix-сервера в себя.
Что-то с этим придумали в заббиксе или кто как с этим борется? Увеличение кол-ва pollers на старте в конфиге заббикса проблему не решает. Разве что может отсрочить уход в аут заббикс сервера или, если проблемы на сети быстро закончатся (3-5 минут), то шторм пройдёт мимо. Но и увеличение этих poller до любого значения тоже не есть хорошо.
В спокойном состоянии картина вот такая по занятости процессов:

Буду раз обсудить любой опыт в этом вопросе. Может кому будет интересно как я пришёл к мониторингу конкретных событий в логи, показанных на первом графике - тыц.
Короче. Имеется Zabbix 5.0.27. Нагрузка для некоторых смешная, около 60-65 значений в секунду. Пять баре металлюг серверов и порядка 60 виртуалок. Не буду подробно разукрашивать все случаи, но суть одна. Когда на сети начинаются проблемы и из-за этого отваливается куча (кучка) метрик, то busy poller process начинает уходить выше и выше, доходит до 100%. Чтобы понимать, что это проблемы на сети, у меня вот такой модный график уже есть давно.
Так вот в итоге недоступна может быть всего одна машина, а расколбас начинает затрагивать всех и вся, zabbix-сервер встаёт раком, куча алертов, в общем картина неприятная. Суть в том, что живые сервера, которые могут слать нормально метрики, перестают мониторится, заббикс не успевает по ним отрабатывать, что порождает новые алерты, нагрузку на pollers и дальнейший уход zabbix-сервера в себя.
Что-то с этим придумали в заббиксе или кто как с этим борется? Увеличение кол-ва pollers на старте в конфиге заббикса проблему не решает. Разве что может отсрочить уход в аут заббикс сервера или, если проблемы на сети быстро закончатся (3-5 минут), то шторм пройдёт мимо. Но и увеличение этих poller до любого значения тоже не есть хорошо.
В спокойном состоянии картина вот такая по занятости процессов:
Буду раз обсудить любой опыт в этом вопросе. Может кому будет интересно как я пришёл к мониторингу конкретных событий в логи, показанных на первом графике - тыц.
Comment