Доброе время суток.
Имеется сервер с ОС Linux Mint 18 Sarah.
Intel Xeon CPU E5430 2.66GHz; 4Gb Memory.
Используется система мониторинга Zabbix версии 3.2.4. База данных mysql.
Большинство параметров в default значениях. Корректируемые мной параметры в конфигурационном файле:
Количество узлов сети (активированных): 391
Количество элементов данных (активированных): 2975
Требуемое быстродействие сервера, новые значения в секунду: 30.37
В основном мониторятся сетевые коммутаторы, производства компании D-Link, по протоколу SNMPv3.
Сразу оговорюсь, что Engine ID у всех коммутаторов в сети - уникальный.
Описание проблемы:
Периодически коммутаторы отключаются по питанию, т.е. пропадает электричество. Заббикс-сервер естественно обнаруживает проблему, шлет оповещение, и т.д.,
но после возобновления работоспособности коммутатора, в лог файле появляются ошибки вида:
SNMP agent item "" on host "1.1.1.1" failed: first network error, wait for 15 seconds
resuming SNMP agent checks on host "1.1.1.1": connection restored
SNMP agent item "" on host "2.2.2.2" failed: first network error, wait for 15 seconds
resuming SNMP agent checks on host "2.2.2.2": connection restored
Вернуть работоспособность узла, и корректного опроса получается перезапуском zabbix-server'a.
Пробовал деактивировать/активировать узел, изменять Engine ID на коммутаторе - не дает положительного результата.
При глобальных отключениях электропитания, например 100 узлов, ошибок в лог сыпется в 100 раз больше.
Вылезает предупреждение, о занятости пуллеров: Zabbix poller processes more than 75% busy
Графики работы zabbix, где в примерно в 4 утра было отключение эл-ва, а в 9 утра был перезапущен zabbix-server:


Прошу помощи в решении проблемы, может кто сталкивался уже с такой ситуацией? Буду рад любым мнениям и предположения о возникновении такого поведения.
Имеется сервер с ОС Linux Mint 18 Sarah.
Intel Xeon CPU E5430 2.66GHz; 4Gb Memory.
Используется система мониторинга Zabbix версии 3.2.4. База данных mysql.
Большинство параметров в default значениях. Корректируемые мной параметры в конфигурационном файле:
- StartPollers=10
- StartPollersUnreachable=5
- StartPingers=7
- StartDiscoverers=2
- CacheSize=512M
- StartDBSyncers=5
- ValueCacheSize=64M
- Timeout=10
- UnreachablePeriod=60
- UnreachableDelay=15
Количество узлов сети (активированных): 391
Количество элементов данных (активированных): 2975
Требуемое быстродействие сервера, новые значения в секунду: 30.37
В основном мониторятся сетевые коммутаторы, производства компании D-Link, по протоколу SNMPv3.
Сразу оговорюсь, что Engine ID у всех коммутаторов в сети - уникальный.
Описание проблемы:
Периодически коммутаторы отключаются по питанию, т.е. пропадает электричество. Заббикс-сервер естественно обнаруживает проблему, шлет оповещение, и т.д.,
но после возобновления работоспособности коммутатора, в лог файле появляются ошибки вида:
SNMP agent item "" on host "1.1.1.1" failed: first network error, wait for 15 seconds
resuming SNMP agent checks on host "1.1.1.1": connection restored
SNMP agent item "" on host "2.2.2.2" failed: first network error, wait for 15 seconds
resuming SNMP agent checks on host "2.2.2.2": connection restored
Вернуть работоспособность узла, и корректного опроса получается перезапуском zabbix-server'a.
Пробовал деактивировать/активировать узел, изменять Engine ID на коммутаторе - не дает положительного результата.
При глобальных отключениях электропитания, например 100 узлов, ошибок в лог сыпется в 100 раз больше.
Вылезает предупреждение, о занятости пуллеров: Zabbix poller processes more than 75% busy
Графики работы zabbix, где в примерно в 4 утра было отключение эл-ва, а в 9 утра был перезапущен zabbix-server:


Прошу помощи в решении проблемы, может кто сталкивался уже с такой ситуацией? Буду рад любым мнениям и предположения о возникновении такого поведения.