Коллеги, приветствую!
Столкнулся со странной проблемой, буду рад любому совету или посильной помощи т.к. светлые мысли уже иссякли)
Имеем:
Заббикс сервер 6.0.ХХ в контейнере / ~5.6к хостов / ~800к метрик
5 прокси в контейнере / нагрузка средняя, равномерная
~10 прокси в кубере(настройки из коробки с сайта заббикса) / нагрузка не равномерная, есть большие и маленькие кластера
Суть проблемы:
В какой то момент перестают идти данные от проксей кубера (обычно это две одни и те же, но не всегда), все показатели сервера в этот момент в норме, на кластере кубера тоже проблемы не фиксируются, лечится только пересозданием контейнера сервера, рестарт пода прокси и рестарт контейнера сервера никак не влияют на ситуацию.
В какой то момент срабатывает триггер no data, который прикручен к метрике очереди прокси, остальные метрики обновляются и мониторинг по факту работает, так ломается любая метрика прокси на которой висит триггер no data.
Связанны ли эти две проблемы между собой не знаю, но очень похоже что как то связанны, проявляются в разное время.
Рядом стоит такая же инсталляция, но с меньшей нагрузкой, таких проблем нет.
В логах прокси zbx tcp read timeout, в логах сервера ничего.
Если кто то сталкивался с похожим, поделитесь опытом пожалуйста.
Столкнулся со странной проблемой, буду рад любому совету или посильной помощи т.к. светлые мысли уже иссякли)
Имеем:
Заббикс сервер 6.0.ХХ в контейнере / ~5.6к хостов / ~800к метрик
5 прокси в контейнере / нагрузка средняя, равномерная
~10 прокси в кубере(настройки из коробки с сайта заббикса) / нагрузка не равномерная, есть большие и маленькие кластера
Суть проблемы:
В какой то момент перестают идти данные от проксей кубера (обычно это две одни и те же, но не всегда), все показатели сервера в этот момент в норме, на кластере кубера тоже проблемы не фиксируются, лечится только пересозданием контейнера сервера, рестарт пода прокси и рестарт контейнера сервера никак не влияют на ситуацию.
В какой то момент срабатывает триггер no data, который прикручен к метрике очереди прокси, остальные метрики обновляются и мониторинг по факту работает, так ломается любая метрика прокси на которой висит триггер no data.
Связанны ли эти две проблемы между собой не знаю, но очень похоже что как то связанны, проявляются в разное время.
Рядом стоит такая же инсталляция, но с меньшей нагрузкой, таких проблем нет.
В логах прокси zbx tcp read timeout, в логах сервера ничего.
Если кто то сталкивался с похожим, поделитесь опытом пожалуйста.