Ad Widget

**teddy** · 20-03-2023, 20:47

Я бы вычислил какие из метрик начинают "зависать" при проблемах по сети - скорее всего это определенный тип метрик и перевести их в режим Активного агента. насколько я понимаю, тут проблема в том что из-за ошибок по сети запрос некоторых метрик начинает уходить в таймаут и накапливаться в очередях И быстро забивает ресурсы сервера заббикса. А переход в режим активного агента для таких метрик - уберет первопричину. если с сетью напряг - то агент не сможет отправить метрику. но это будет проблема агента. а сервер просто не получит вовремя ожидаемое, но это уже не так страшно. Архитектурно эта проблема еще решается через заббикс-прокси, но строить прокси ради десятка пк - неоправдано.

С этой точки зрения кстати я большинство метрик, если возможно, перевожу в активный режим. После тестирования ( т.к тестировать удобнее в пассивном ). Исключение если на целевой машине и так проблема с ресурсами. помним что активный режим агента увеличивает нагрузку на сам удаленный ПК. Не так чтоб уж сильно, но прирост есть.

**Alex_UUU** · 21-03-2023, 20:57

УРА!!!!!!!!!!!
Наконец-то еще у кого-то такая же проблема.

ЗЫ. Это я не злорадствую, это я к тому, что может найдем причину. Описывало и спрашивал уже несколько раз (поиском можно найти). Пока пришел к такой причине: Если просто вырубить узел - никаких проблем. Проблема возникает, если что-то случилость на сети и сервер считает, что связность пропала, а агент - что нет (или наоборот).
Лечили или перезагрузкой сервера, или №само рассосется" И рассасывалось. Но приходилось отрубать уведомления, чтобы не спамили
У меня основная масса ЭД - активные. Даже сделал через прокси. Пофигу.

**teddy** · 22-03-2023, 17:45

Ну у меня не рассосалось само.
Но. У меня был заббикс на MySQL точнее MariaDB. Я долго тюнил БД для уменьшения нагрузки на БД, которая не успевала за потоком датчиков. С трудом добился сравнительно приемлемого уровня. но при работе хаускипера все равно была беда.
Поэтому я принял решение перенести все на Postgres.Без timescale. Я потерял накопленную историю, но на это я был готов.
И произошла таки чудо )) На тех же ресурсах у меня на Postgres все летает с нагрузкой не выше 10-15% на диск. Редкие датчики, которые застревали как я описал выше - перевел на Активный режим и сейчас у меня нет проблем. При переходе я поднял версию заббикса с 5.что-то до 6.2. но не думаю что именно это дало то самое чудо. Сегодня у меня поток данных ~600 значений в секунду - метрика самого заббикса. Я понимаю что это на самом деле не так уж и много, но судя по загрузке я сейчас имею запас где то в два раза по потоку данных.
Дальше либо наращивать ресурсы либо строить прокси для сглаживания. Кстати на мускуле поток был того же уровня но система категорически не успевала.
Выводы делайте сами.

**teddy** · 25-03-2023, 10:01

да. еще один момент. я последнее время слишком часто наблюдаю что сервер пишет что поетрял связь с агентом. хотя с сетью все ок, и агент запущен. я решил это так - обвесил этот триггер рюшечками - action который, скриптом запущенным на сервере ( это важно, т.к скрипт на клиенте не запустится - связи с агентом же нет ), перезапускает агента на клиенте. для linux по ssh, для windows средствами /usr/bin/net rpc service.
решение не самое лучшее но работает.

Ad Widget

busy poller process и недоступный сервер [расколбас zabbix-server]

busy poller process и недоступный сервер [расколбас zabbix-server]

Comment

Comment

Comment

Comment