Приветствую! Снова обращаюсь за помощью в форум.
Для мониторинга сети провайдера ~1000 коммутаторов + серверы.
Был установлен забикс 3.2.4 на две виртуальные машины находящиеся на разных физический серверах.
Под нужды Zabbix server выделено 8 ядер 8G и 100G hdd. Для МуSQL(InnoDB) 8 ядер 8G и 250G hdd. В БД использовано partitioning. Также используется discovery по пулам, но без обнаружения LLD.
Всего 1400 nvps
Все работает отлично за исключением одной модели коммутаторов(EdgeCore ES3528M), но у меня их 400 штук.
Симптомы:

После продолжительных проб и ошибок, а также тщательной проверки шаблонов удалось обнаружить проблему.
Отключение всех хостов, а потом включение по модельно показало, что одна модель коммутаторов отдает только 70-80 элементов раз в минуту, а потом возникают сетевая ошибка.
Решено было:
Данные манипуляции помогли нагрузка полеров снизилась график уверенно рисовал на уровне 3% - при 1000 nvps! (Простите не знаю как проилюстрировать)
Но после перезагрузки сервера снова появилась "пила", правда не с такой амплитудой ( до 80 %), а также сетевые ошибки в логе. Подборкой таймаутов удалось убрать "пилу", но загрузка полера держится на уровне 25% также увеличилась нагрузка на history syncer.
Подскажите, пожалуйста, возможно ли решить эту ситуацию? Почему до перезагрузки сервера загрузка полера была 3% (никаких настроек не менял).
Для мониторинга сети провайдера ~1000 коммутаторов + серверы.
Был установлен забикс 3.2.4 на две виртуальные машины находящиеся на разных физический серверах.
Под нужды Zabbix server выделено 8 ядер 8G и 100G hdd. Для МуSQL(InnoDB) 8 ядер 8G и 250G hdd. В БД использовано partitioning. Также используется discovery по пулам, но без обнаружения LLD.
Всего 1400 nvps
Все работает отлично за исключением одной модели коммутаторов(EdgeCore ES3528M), но у меня их 400 штук.
Симптомы:
- для пришлось увеличить количество поллеров до 800, но все равно на графике возникает пила до 100% или если пробовать менять настройки может подняться под потолок и начнет расти очередь;
- прерывание графиков;
- постоянно возникают ошибки SNMP agent item "ifOutOctets.23" on host "10.1.1.15" failed: first network error, wait for 30 seconds в логе Забикса.

После продолжительных проб и ошибок, а также тщательной проверки шаблонов удалось обнаружить проблему.
Отключение всех хостов, а потом включение по модельно показало, что одна модель коммутаторов отдает только 70-80 элементов раз в минуту, а потом возникают сетевая ошибка.
Решено было:
- включить bulk(раньше его выключил так как он только ухудшал ситуацию);
- так как появилось предположение, что группируются элементы по времени разделить элементы по приоритетам и назначить разное время обновления (одни 58с, другие 176с, третьи 580, четвертые раз в час)
- поменял оиды буквенные на цифровые.
Данные манипуляции помогли нагрузка полеров снизилась график уверенно рисовал на уровне 3% - при 1000 nvps! (Простите не знаю как проилюстрировать)
Но после перезагрузки сервера снова появилась "пила", правда не с такой амплитудой ( до 80 %), а также сетевые ошибки в логе. Подборкой таймаутов удалось убрать "пилу", но загрузка полера держится на уровне 25% также увеличилась нагрузка на history syncer.
Подскажите, пожалуйста, возможно ли решить эту ситуацию? Почему до перезагрузки сервера загрузка полера была 3% (никаких настроек не менял).