Ad Widget

**Jimson** · 30-01-2014, 16:25

А сколько пулеров запущено на сервере? Что показывает статистика zabbix_server?

P.S. и таймаут максимальный на сколько я помню 30 секунд (при условии что вы его прописали в конфиге, значение по умолчанию меньше), так что "пропадания" на проблемном сервере будут в любом случае, пулер не дождется данных.

**ukara** · 31-01-2014, 05:31

Пулеров 5.
В статистике все зеленое.
### Option: Timeout
Timeout=15
Timeout выставлен в 15.
Я так понимаю мне не хватает свободных пулеров, когда один из них висит в ожидании ответа по таймауту от проверки?

**Jimson** · 31-01-2014, 08:44

Ну раз у вас по другим, нормально работающим, хостам данные пропадать начали, то первым делом надо смотреть за загрузкой пулеров: zabbix[process,poller,avg,busy]. Что такое "все зеленое" я не понял. Опять же не понятно что за задержки такие в 40 секунд, может у вас там не только SNMP мониторится, описывайте проблему подробнее, возможно пока сформулируете вопрос уже и проблему найдете самостоятельно.

**ukara** · 31-01-2014, 09:30

С утра поменял количество пуллеров до 200.

SNMP не испольуется. Провеки: net.tcp.service.perf[smtp,hostname,25] + стандартные из Template Linux OS.

В логах сервера следуюее:
24312:20140131:112138.009 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host2" failed: first network error, wait for 15 seconds

24431:20140131:112152.434 resuming Zabbix agent checks on host "host1": connection restored
24431:20140131:112153.454 resuming Zabbix agent checks on host "host2": connection restored
24242:20140131:112337.584 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host1" failed: first network error, wait for 15 seconds
24223:20140131:112338.739 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host2" failed: first network error, wait for 15 seconds
24431:20140131:112352.501 resuming Zabbix agent checks on host "host1": connection restored
24431:20140131:112353.854 resuming Zabbix agent checks on host "host2": connection restored

+Сейчас с второго хоста все собирается нормально, а график CPU Utilization первого показан в аттаче.

Attached Files

**yukra** · 02-02-2014, 12:11

Originally posted by ukara

график CPU Utilization первого показан в аттаче.

Молодец. А теперь посмотри на свой график нагрузки CPU и попробуй догадаться что именно значит зеленый цвет, а что синий

+ если приводишь 2 графика, логичнее приводить их за одинаковое время. Могу предположить что в моменты "провалов" пуллеры заняты на 100%, но этого не видно на графике потому что там "средние" значения и эти 100% просто размазались.

Так же советовал бы побольше айтемов "внутренних проверок" создать, в частности разных "zabbix[process,<тип>,<режим>,<состояние>]"

Zabbix documentation

https://www.zabbix.com/documentation/ru/2.2/manual/config/items/itemtypes/internal

**AllertGen** · 04-02-2014, 10:46

Вообще человек правильно мыслит. Поллер обходит каждый параметр по очереди и если что-то не доступно, он "зависает" на этом параметре на "timeout" кол-ва секунд.
Решений несколько (рекомендую совместить):
1. Уменьшить таймаут со стандартных 15 до 2 - 4 секунд (компенсировать возможные потери данных из-за не получения по таймауту уменьшением промежутка между повторными опросами). Так же увеличит кол-во поллеров (уже сделано).
2. Уменьшить кол-во времени до момента, когда параметр переходит в состояние Unreacheble. Тогда этот параметр больше не будет отдаваться в основной поллер, а передастся в другой поллер - Unreacheble poller.

Ad Widget

Вопрос про сбор данных при долгом таймау&#

Вопрос про сбор данных при долгом таймау&#

Comment

Comment

Comment

Comment

Comment

Comment