Ad Widget

**oscar** · 22-06-2017, 21:26

Хм...
1. ~1400 значений/сек. Что-то великовато для вашей сети. ((24*4*2000) + (4*12*2000) + (24*12*64))/3600 * 5 (In/Out трафик и мультикаст + статус) = ~430 значений/сек. Такую нагрузку потянет без проксей. Посмотрите внимательно что у вас реально опрашивается и с каким интервалом. Конфиг на картинке запущен на виртуалке (PostgreSQL с партицированием) и вполне справляется - очередь пустая.

2. На всех 2000 коммутаторах всегда активны все 24 порта? ИМХО lld с фильтром только активных портов самое оно

**shicoy** · 23-06-2017, 06:26

1) Вот мои показатели.
Я так понимаю - посмотрите что реально опрашивается, имеется в виду провести ревизию всех шаблонов устройств для выявления узких мест?
2) а lld дополнительно нагрузку не создаст? в принципе какая разница 24 или 5 портов, в том плане что все равно же bulkwalk используется.

Attached Files

**wins** · 23-06-2017, 07:29

lld создает нагрузку, если создаст кучу ненужных айтемов

Ну вот с фильтрами например: дескрипшен не пустой - берем в мониторинг. Дескрипшен не пустой и имеет вид ^\# - лепим дополнительные проверки.

**shicoy** · 23-06-2017, 10:05

Ну как вариант с lld можно пробовать. Но утилизация портов порядка 80% (заняты) поэтому сильно не спасет.

Хочется понять где узкое место и как с этим бороться)

**wins** · 23-06-2017, 10:36

я бы начал с анализа используемых типов проверок: какие проверки, как часто, к каким узлам сети эти проверки применяются.
Такие вещи как статусы портов, различные алармы я начал мониторить через снмп трапы - производительность улучшилась.
Еще можно глянуть в лог сервера, бывает что какие-то девайсы типа эрика или гпона очень долго отвечают на тот или иной снмп-запрос. Ну это часный случай.

**Nagainos** · 23-06-2017, 10:40

Originally posted by shicoy

Необходимо "мониторить" сеть из 2000 коммутаторов доступа (24 порта раз в 15 минут, 4 порта раз в 5 минут) и порядка 64 коммутаторов агрегации (24 порта раз в 5 минут). Ну и так по мелочи.

Для этого развернули: сервер + 2 прокси.
Коммутаторы равномерно распределены между прокси.
Прокси работают под Linux, БД Mysql-InnoDB.

Заббикс говорит что с прокси требуемое знанчение: ~1400 значений/сек.

Собственно есть проблема с быстродействием прокси.
В очереди примерно по 1500 значений в зоне 1 минута, и около 50-100 значений в зоне 10 минут.

На прокси 8Гбайт оперативки (вся занята), SSD-кеш+HDD.

Конфиг прокси (основные моменты):
StartPollers=800
StartPingers=800
CacheSize=1G

Вообщем, с Заббиксом на таких нагрузках дела не имел. Подскажите куда копать.

Возможно Заббикс не подходит под мониторинг такого кол-ва устройств, но очень хочется весь мониторинг иметь в "одном месте".

1. Можно посмотреть время выполнения INSERT'ов в БД. Возможно они выполняются медленно. Настроить СУБД.
2. Отключить Housekeeper, вкрутить партиционирование. (Можно предварительно проверить: на машине высокое IOWAIT + в show processlist висит куча DELETE с ожиданием)
3. Отключить ненужные элементы данных
4. Попробовать уменьшить значения StartPollers и StartPingers. ИМХО их слишком много.
Для сравнения - активных хостов 2171, активных элементов данных 114933, nvps 1854.
StartPollers=44 и StartPingers=22

**oscar** · 23-06-2017, 10:54

Originally posted by shicoy

1) Вот мои показатели.
Я так понимаю - посмотрите что реально опрашивается, имеется в виду провести ревизию всех шаблонов устройств для выявления узких мест?
2) а lld дополнительно нагрузку не создаст? в принципе какая разница 24 или 5 портов, в том плане что все равно же bulkwalk используется.

1. Это и мел ввиду... Скрин со списком айтемов одного типового хоста думаю прояснит картину. Иначе не совсем понятно как вы на 1600 хостах умудрились почти 700000 айтемов получить...
2. С bulkwalk у нас как-то не сложилось. В наших коммутаторах он криво реализован. И я сомневаюсь что он как-то сильно снижает нагрузку - количество запросов к коммутатору может и снижается, но в базу они все равно пишутся также. Т.к. у заббикса узкое место быстродействие БД (ИМХО, конечно) то сильного выигрыша вы тут не получите. Я соглашусь с коментом чуть выше - временно (хотябы) отключить кипер и посмотреть в сторону партицирования...

**wins** · 23-06-2017, 11:12

Как расчитать оптимальное значение StartPingers и StartPollers? Исходя из значения nvps или кол-ва айтемов?

**Nagainos** · 23-06-2017, 11:18

Originally posted by wins

Как расчитать оптимальное значение startpingers и startpollers? Исходя из значения nvps или кол-ва айтемов?

Смотреть за количеством используемых поллеров. Если поллеры загружены процентов на 80 - повышать значение загруженного поллера.
ИМХО средняя нагрузка на поллер не должна превышать 70%, некоторые рекомендуют около 50% чтобы выдерживать неожиданные всплески активности

Ad Widget

Zabbix 3.2: Производительность.

Zabbix 3.2: Производительность.

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment