Коллеги, вот такая штука:
Заббикс обрабатывает порядка тысячи хостов, около 200 000 ЭД ну и т.д.
Основная масса ЭД - активные проверки.
И вот такая ситуация: отваливается элемент сети, т.е. половина серверов становится недоступна. Вроде штатная ситуация, но начинают расти пуллеры до 100%, соответственно растут алерты, начинает расти очередь, ну и через какое-то время сервер просто уходит "на покурить".
Ощущение, что логика сервера такая, что даже если он определил несетевую связность с узлом, он все равно пытается выдернуть все ЭД.
Это в настройках что-=то неправильно или уже не побороть?
Да, когда сетка восстанавливается, заббикс все равно в отрубе. Перезагрузка приводит к 100% загрузке синклеров, росту очереди предпроцессинга.
В логах вырастает кол-во
failed: first network error, wait for 15 seconds
temporarily disabling Zabbix agent checks on host "ХХХХХХХ": host unavailable
Заббикс обрабатывает порядка тысячи хостов, около 200 000 ЭД ну и т.д.
Основная масса ЭД - активные проверки.
И вот такая ситуация: отваливается элемент сети, т.е. половина серверов становится недоступна. Вроде штатная ситуация, но начинают расти пуллеры до 100%, соответственно растут алерты, начинает расти очередь, ну и через какое-то время сервер просто уходит "на покурить".
Ощущение, что логика сервера такая, что даже если он определил несетевую связность с узлом, он все равно пытается выдернуть все ЭД.
Это в настройках что-=то неправильно или уже не побороть?
Да, когда сетка восстанавливается, заббикс все равно в отрубе. Перезагрузка приводит к 100% загрузке синклеров, росту очереди предпроцессинга.
В логах вырастает кол-во
failed: first network error, wait for 15 seconds
temporarily disabling Zabbix agent checks on host "ХХХХХХХ": host unavailable
Comment