Коллеги, доброго времени суток.
Досталась мне по наследству от прошлых админов система мониторинга: zabbix 5.0.2, база Postgresql 11 с TimescaleDB примерно 650Gb размером. Всего ранее было три виртуальных машины: основной сервер заббикса, веб-сервер, сервер базы. Я добавил еще три машины прокси, их поднимал той же версии, что и сам заббикс, на базе Postgresql 14 Oracle Linux Server 7.9., 16 GB озу, 156GB SSD, 4 cpu. И начал переносить туда хосты из другой системы мониторинга, получается просто подключал как новые для данной системы. А именно на первый прокси я решил поместить все хосты, которые не имеют заббикс агента, зоопарк: cisco и mikrotik маршрутизаторы, принтеры, видеорегистраторы и прочие устройства, которые умеют snmp и отвечать на пинги. Подключил на первый прокси: 10500 хостов, 161000 элементов данных, 650 знач.\чек. и начала появляться очередь, держится на уровне 3000-5000 больше 10 минут. Я сначала подумал, что может поллеров не хватает или ресурсов у железа, посмотрел данные по загрузке разных поллеров и добавил где нагрузка превышала 80%, сейчас по всем параметрам не превышает и 50%, по нагрузке на железо прокси, базы или сервера все в порядке, почти все параметры не превышают 60% нагруженности (cpu, озу, диск на запись\чтение), так же по параметрам самой базы сервера тоже все метрики в порядке. После я проверил данные в очереди и там оказались элементы данных, которые не существуют для некоторых хостов, такие повесил на lld, еще часть очереди ушла. В итоге у меня в очереди snmp меткрики, которые при желании снимаются легко и без препятствий, т.е. заходишь в элементы данных узла, отмечаешь нужные и жмешь выполнить, они сразу же исчезают из очереди. Заметил, что чаще всего в очереди элементы данных, которые добавлены через lld ну и сами обнаружения lld. Пробовал играть с частотой опроса, результата не дало, одни и те же метрики будут висеть сутками в очереди, но если принудительно запросить данные то легко снимаются. Так же играл с таймаутом в конфиге, 30 секунд показали самые лучшие результаты. Создал элемент данных очереди на стороне прокси, ее там нет, то есть прокси все данные отдал и ничего не копит у себя в базе. В общем мои идеи кончились..Буду благодарен, если опытные коллеги дадут подсказку, которая поможет решить проблему.
Досталась мне по наследству от прошлых админов система мониторинга: zabbix 5.0.2, база Postgresql 11 с TimescaleDB примерно 650Gb размером. Всего ранее было три виртуальных машины: основной сервер заббикса, веб-сервер, сервер базы. Я добавил еще три машины прокси, их поднимал той же версии, что и сам заббикс, на базе Postgresql 14 Oracle Linux Server 7.9., 16 GB озу, 156GB SSD, 4 cpu. И начал переносить туда хосты из другой системы мониторинга, получается просто подключал как новые для данной системы. А именно на первый прокси я решил поместить все хосты, которые не имеют заббикс агента, зоопарк: cisco и mikrotik маршрутизаторы, принтеры, видеорегистраторы и прочие устройства, которые умеют snmp и отвечать на пинги. Подключил на первый прокси: 10500 хостов, 161000 элементов данных, 650 знач.\чек. и начала появляться очередь, держится на уровне 3000-5000 больше 10 минут. Я сначала подумал, что может поллеров не хватает или ресурсов у железа, посмотрел данные по загрузке разных поллеров и добавил где нагрузка превышала 80%, сейчас по всем параметрам не превышает и 50%, по нагрузке на железо прокси, базы или сервера все в порядке, почти все параметры не превышают 60% нагруженности (cpu, озу, диск на запись\чтение), так же по параметрам самой базы сервера тоже все метрики в порядке. После я проверил данные в очереди и там оказались элементы данных, которые не существуют для некоторых хостов, такие повесил на lld, еще часть очереди ушла. В итоге у меня в очереди snmp меткрики, которые при желании снимаются легко и без препятствий, т.е. заходишь в элементы данных узла, отмечаешь нужные и жмешь выполнить, они сразу же исчезают из очереди. Заметил, что чаще всего в очереди элементы данных, которые добавлены через lld ну и сами обнаружения lld. Пробовал играть с частотой опроса, результата не дало, одни и те же метрики будут висеть сутками в очереди, но если принудительно запросить данные то легко снимаются. Так же играл с таймаутом в конфиге, 30 секунд показали самые лучшие результаты. Создал элемент данных очереди на стороне прокси, ее там нет, то есть прокси все данные отдал и ничего не копит у себя в базе. В общем мои идеи кончились..Буду благодарен, если опытные коллеги дадут подсказку, которая поможет решить проблему.
Comment