Ad Widget

Collapse

Zabbix 3.2: Производительность.

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • shicoy
    Junior Member
    • Jun 2014
    • 14

    #1

    Zabbix 3.2: Производительность.

    Необходимо "мониторить" сеть из 2000 коммутаторов доступа (24 порта раз в 15 минут, 4 порта раз в 5 минут) и порядка 64 коммутаторов агрегации (24 порта раз в 5 минут). Ну и так по мелочи.

    Для этого развернули: сервер + 2 прокси.
    Коммутаторы равномерно распределены между прокси.
    Прокси работают под Linux, БД Mysql-InnoDB.

    Заббикс говорит что с прокси требуемое знанчение: ~1400 значений/сек.

    Собственно есть проблема с быстродействием прокси.
    В очереди примерно по 1500 значений в зоне 1 минута, и около 50-100 значений в зоне 10 минут.

    На прокси 8Гбайт оперативки (вся занята), SSD-кеш+HDD.

    Конфиг прокси (основные моменты):
    StartPollers=800
    StartPingers=800
    CacheSize=1G

    Вообщем, с Заббиксом на таких нагрузках дела не имел. Подскажите куда копать.

    Возможно Заббикс не подходит под мониторинг такого кол-ва устройств, но очень хочется весь мониторинг иметь в "одном месте".
  • oscar
    Senior Member
    • Dec 2010
    • 141

    #2
    Хм...
    1. ~1400 значений/сек. Что-то великовато для вашей сети. ((24*4*2000) + (4*12*2000) + (24*12*64))/3600 * 5 (In/Out трафик и мультикаст + статус) = ~430 значений/сек. Такую нагрузку потянет без проксей. Посмотрите внимательно что у вас реально опрашивается и с каким интервалом. Конфиг на картинке запущен на виртуалке (PostgreSQL с партицированием) и вполне справляется - очередь пустая.



    2. На всех 2000 коммутаторах всегда активны все 24 порта? ИМХО lld с фильтром только активных портов самое оно

    Comment

    • shicoy
      Junior Member
      • Jun 2014
      • 14

      #3
      1) Вот мои показатели.
      Я так понимаю - посмотрите что реально опрашивается, имеется в виду провести ревизию всех шаблонов устройств для выявления узких мест?
      2) а lld дополнительно нагрузку не создаст? в принципе какая разница 24 или 5 портов, в том плане что все равно же bulkwalk используется.
      Attached Files

      Comment

      • wins
        Senior Member
        • Sep 2014
        • 307

        #4
        lld создает нагрузку, если создаст кучу ненужных айтемов
        Ну вот с фильтрами например: дескрипшен не пустой - берем в мониторинг. Дескрипшен не пустой и имеет вид ^\# - лепим дополнительные проверки.

        Comment

        • shicoy
          Junior Member
          • Jun 2014
          • 14

          #5
          Ну как вариант с lld можно пробовать. Но утилизация портов порядка 80% (заняты) поэтому сильно не спасет.

          Хочется понять где узкое место и как с этим бороться)

          Comment

          • wins
            Senior Member
            • Sep 2014
            • 307

            #6
            я бы начал с анализа используемых типов проверок: какие проверки, как часто, к каким узлам сети эти проверки применяются.
            Такие вещи как статусы портов, различные алармы я начал мониторить через снмп трапы - производительность улучшилась.
            Еще можно глянуть в лог сервера, бывает что какие-то девайсы типа эрика или гпона очень долго отвечают на тот или иной снмп-запрос. Ну это часный случай.

            Comment

            • Nagainos
              Member
              • Oct 2016
              • 46

              #7
              Originally posted by shicoy
              Необходимо "мониторить" сеть из 2000 коммутаторов доступа (24 порта раз в 15 минут, 4 порта раз в 5 минут) и порядка 64 коммутаторов агрегации (24 порта раз в 5 минут). Ну и так по мелочи.

              Для этого развернули: сервер + 2 прокси.
              Коммутаторы равномерно распределены между прокси.
              Прокси работают под Linux, БД Mysql-InnoDB.

              Заббикс говорит что с прокси требуемое знанчение: ~1400 значений/сек.

              Собственно есть проблема с быстродействием прокси.
              В очереди примерно по 1500 значений в зоне 1 минута, и около 50-100 значений в зоне 10 минут.

              На прокси 8Гбайт оперативки (вся занята), SSD-кеш+HDD.

              Конфиг прокси (основные моменты):
              StartPollers=800
              StartPingers=800
              CacheSize=1G

              Вообщем, с Заббиксом на таких нагрузках дела не имел. Подскажите куда копать.

              Возможно Заббикс не подходит под мониторинг такого кол-ва устройств, но очень хочется весь мониторинг иметь в "одном месте".
              1. Можно посмотреть время выполнения INSERT'ов в БД. Возможно они выполняются медленно. Настроить СУБД.
              2. Отключить Housekeeper, вкрутить партиционирование. (Можно предварительно проверить: на машине высокое IOWAIT + в show processlist висит куча DELETE с ожиданием)
              3. Отключить ненужные элементы данных
              4. Попробовать уменьшить значения StartPollers и StartPingers. ИМХО их слишком много.
              Для сравнения - активных хостов 2171, активных элементов данных 114933, nvps 1854.
              StartPollers=44 и StartPingers=22

              Comment

              • oscar
                Senior Member
                • Dec 2010
                • 141

                #8
                Originally posted by shicoy
                1) Вот мои показатели.
                Я так понимаю - посмотрите что реально опрашивается, имеется в виду провести ревизию всех шаблонов устройств для выявления узких мест?
                2) а lld дополнительно нагрузку не создаст? в принципе какая разница 24 или 5 портов, в том плане что все равно же bulkwalk используется.
                1. Это и мел ввиду... Скрин со списком айтемов одного типового хоста думаю прояснит картину. Иначе не совсем понятно как вы на 1600 хостах умудрились почти 700000 айтемов получить...
                2. С bulkwalk у нас как-то не сложилось. В наших коммутаторах он криво реализован. И я сомневаюсь что он как-то сильно снижает нагрузку - количество запросов к коммутатору может и снижается, но в базу они все равно пишутся также. Т.к. у заббикса узкое место быстродействие БД (ИМХО, конечно) то сильного выигрыша вы тут не получите. Я соглашусь с коментом чуть выше - временно (хотябы) отключить кипер и посмотреть в сторону партицирования...

                Comment

                • wins
                  Senior Member
                  • Sep 2014
                  • 307

                  #9
                  Как расчитать оптимальное значение StartPingers и StartPollers? Исходя из значения nvps или кол-ва айтемов?

                  Comment

                  • Nagainos
                    Member
                    • Oct 2016
                    • 46

                    #10
                    Originally posted by wins
                    Как расчитать оптимальное значение startpingers и startpollers? Исходя из значения nvps или кол-ва айтемов?
                    Смотреть за количеством используемых поллеров. Если поллеры загружены процентов на 80 - повышать значение загруженного поллера.
                    ИМХО средняя нагрузка на поллер не должна превышать 70%, некоторые рекомендуют около 50% чтобы выдерживать неожиданные всплески активности

                    Comment

                    Working...