Ad Widget

Collapse

Проблема с одной моделью коммутаторов

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • thund3r
    Junior Member
    • Mar 2017
    • 14

    #1

    Проблема с одной моделью коммутаторов

    Приветствую! Снова обращаюсь за помощью в форум.

    Для мониторинга сети провайдера ~1000 коммутаторов + серверы.
    Был установлен забикс 3.2.4 на две виртуальные машины находящиеся на разных физический серверах.
    Под нужды Zabbix server выделено 8 ядер 8G и 100G hdd. Для МуSQL(InnoDB) 8 ядер 8G и 250G hdd. В БД использовано partitioning. Также используется discovery по пулам, но без обнаружения LLD.
    Всего 1400 nvps
    Все работает отлично за исключением одной модели коммутаторов(EdgeCore ES3528M), но у меня их 400 штук.

    Симптомы:
    • для пришлось увеличить количество поллеров до 800, но все равно на графике возникает пила до 100% или если пробовать менять настройки может подняться под потолок и начнет расти очередь;
    • прерывание графиков;
    • постоянно возникают ошибки SNMP agent item "ifOutOctets.23" on host "10.1.1.15" failed: first network error, wait for 30 seconds в логе Забикса.




    После продолжительных проб и ошибок, а также тщательной проверки шаблонов удалось обнаружить проблему.
    Отключение всех хостов, а потом включение по модельно показало, что одна модель коммутаторов отдает только 70-80 элементов раз в минуту, а потом возникают сетевая ошибка.
    Решено было:
    • включить bulk(раньше его выключил так как он только ухудшал ситуацию);
    • так как появилось предположение, что группируются элементы по времени разделить элементы по приоритетам и назначить разное время обновления (одни 58с, другие 176с, третьи 580, четвертые раз в час)
    • поменял оиды буквенные на цифровые.

    Данные манипуляции помогли нагрузка полеров снизилась график уверенно рисовал на уровне 3% - при 1000 nvps! (Простите не знаю как проилюстрировать)

    Но после перезагрузки сервера снова появилась "пила", правда не с такой амплитудой ( до 80 %), а также сетевые ошибки в логе. Подборкой таймаутов удалось убрать "пилу", но загрузка полера держится на уровне 25% также увеличилась нагрузка на history syncer.

    Подскажите, пожалуйста, возможно ли решить эту ситуацию? Почему до перезагрузки сервера загрузка полера была 3% (никаких настроек не менял).
Working...