Добрый день.
В начале опишу конфиг системы мониторинга (все сервера виртуальные):
Frontend+zabbix server:
Backend (mysql) server:
Proxy servers (sqlite):
Подробные конфиги zabbix сервера и mysql базы не привожу, т.к. проблема, как мне кажется на стороне прокси сервера.
Суть проблемы:
прокси сервер до определенного времени мониторил порядка 1700 узлов по 3-м ICMP метрикам:
При такой нагрузке VPS на проксе было в районе 100, а zabbix queue не превышала 1800. В zabbix сервер данные попадали без задержек и отставаний.
Вчера на данный прокси вывели еще дополнительно 2700 узлов с теми же параметрами мониторинга (3 ICMP метрики).
Статистика по прокси серверу:
После такого увеличения zabbix proxy стал "не успевать" собирать необходимые данные, в результате чего появилась стабильная очередь по собираемым метрикам:
И соответственно данные стали запаздывать от 1 до 4 минут:
Selfmonitoring прокси показывает следующее:

Видно что сильно скакнуа zabbix очереди и CPU system time.
Увеличение StartPingers не дает никакого результата. Судя по мониторингу машинка не перегружена. Вероятно упирается в сам механизм пингования. Сталкивался кто нибудь с такой проблемой или может быть есть предположения в какую сторону копать для уменьшения очереди до приемлемых значений и устранения задержки сбора данных?
В начале опишу конфиг системы мониторинга (все сервера виртуальные):
Frontend+zabbix server:
4 x vCPU
4 GB RAM
20 GB HDD (RAID5 5xSAS 15k)
4 GB RAM
20 GB HDD (RAID5 5xSAS 15k)
Backend (mysql) server:
4 x vCPU
24 GB RAM
600 GB HDD (RAID10 10xSAS 15k)
24 GB RAM
600 GB HDD (RAID10 10xSAS 15k)
Proxy servers (sqlite):
4 x vCPU
4 GB RAM
20 GB HDD (RAID 4xSATA 7.2k)
Proxy config:4 GB RAM
20 GB HDD (RAID 4xSATA 7.2k)
Code:
ProxyMode=0 LogFile=/var/log/zabbix/zabbix_proxy.log LogFileSize=10 DebugLevel=3 PidFile=/var/run/zabbix/zabbix_proxy.pid DBHost=localhost DBName=/usr/lib/zabbix/zabbix_proxy.db ProxyOfflineBuffer=24 ConfigFrequency=600 StartPollers=5 StartPollersUnreachable=25 StartPingers=300 StartDiscoverers=1 CacheSize=256M HistoryCacheSize=256M HistoryTextCacheSize=256M TrapperTimeout=300 UnreachablePeriod=45 UnavailableDelay=60 UnreachableDelay=15 ExternalScripts=/usr/lib/zabbix/externalscripts #TmpDir=/usr/lib/zabbix/tmp TmpDir=/tmp
Суть проблемы:
прокси сервер до определенного времени мониторил порядка 1700 узлов по 3-м ICMP метрикам:
Code:
Name Triggers Key Interval History Trends Type ICMP Packet Loss icmppingloss 60 180 365 Simple check ICMP Echo Reply icmpping[,5,,,5000] 60 180 365 Simple check ICMP Delay icmppingsec[,5,,,5000,avg] 60 180 365 Simple check
Вчера на данный прокси вывели еще дополнительно 2700 узлов с теми же параметрами мониторинга (3 ICMP метрики).
Статистика по прокси серверу:
Code:
Name** Mode Last seen (age) Host count Item count Required performance (vps) Active 5s 4699 14165 235.86
Code:
Proxy 5 seconds 10 seconds 30 seconds 1 minute 5 minutes More than 10 minutes 923 3503 4882 2038 0 0
Code:
Scheduled check Delayed by Host Name 07.01.2015 15:59 1m 56s some host ICMP Echo Reply 07.01.2015 15:59 1m 56s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Echo Reply 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 50s some host ICMP Delay 07.01.2015 16:00 1m 45s some host ICMP Delay

Видно что сильно скакнуа zabbix очереди и CPU system time.
Увеличение StartPingers не дает никакого результата. Судя по мониторингу машинка не перегружена. Вероятно упирается в сам механизм пингования. Сталкивался кто нибудь с такой проблемой или может быть есть предположения в какую сторону копать для уменьшения очереди до приемлемых значений и устранения задержки сбора данных?
Comment