PDA

View Full Version : Переодические провалы в графиках


buklov
15-01-2010, 07:22
Уже не знаю что делать, но периодически появляются такие ошибки
которые влекут за собой провалы в графиках, раз в пару часов точно.

Серверы находятся в одной сети, между ними гигабит, в это время на сервере работают люди и ни каких особых проблем нету.

Сначала думал что проблемы из-за того что mysql не справляется, поставил postgresql, история повторилась в точности

думал проблема в агенте, перешёл на 1.8, так же история

пинг в это время ни одного потерянного пакета не обнаруживает

выставил Timeout=30 , ни чего не изменилось

какие ещё возможны варианты решения???

ps: думал что проблемы из-за слишком высокой нагрузки на сервер, но история и ночью повторяется, когда сервер простаивает


20929:20100115:032024.154 Item [ts00:system.cpu.load[,avg1]] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Connection refused]
20929:20100115:032024.155 ZABBIX Host [ts00]: first network error, wait for 15 seconds
20950:20100115:032040.431 Item [ts00:agent.ping] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Connection refused]
20950:20100115:032040.654 ZABBIX Host [ts00]: another network error, wait for 15 seconds
20950:20100115:032058.662 Item [ts00:agent.ping] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Interrupted system call]
20950:20100115:032058.663 ZABBIX Host [ts00]: another network error, wait for 15 seconds
20950:20100115:032118.668 Item [ts00:agent.ping] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Interrupted system call]
20950:20100115:032223.811 Item [ts00:agent.ping] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Interrupted system call]
20950:20100115:032325.825 Item [ts00:agent.ping] error: Get value from agent failed: Cannot connect to [10.0.0.241:10050] [Connection refused]

sergeyfromkomi
20-01-2010, 14:35
Может быть проблема с типом счётчика ..... для скорости > 140 Mbps нужен 64-битный счётчик ...

dima_dm
20-01-2010, 15:17
Включи debug на zabbix_agent. Если в логах запросы в это время и какие ошибки?

buklov
20-01-2010, 15:24
а как там в логах определить время??? вначале пишутся какие-то непонятные цифры с точками типа таких 84080:20100115:150328.579

есть ошибка типа такой
2020:20100116:143257.943 Process listener error: ZBX_TCP_WRITE() failed [Программа на вашем хост-компьютере разорвала установленное подключение.]

dima_dm
20-01-2010, 15:33
а как там в логах определить время??? вначале пишутся какие-то непонятные цифры с точками типа таких 84080:20100115:150328.579

есть ошибка типа такой

Это PID zabbix_agent
PID: DATE:TIME.миллисекунды


2020:20100116:143257.943 Process listener error: ZBX_TCP_WRITE() failed [Программа на вашем хост-компьютере разорвала установленное подключение.
Может на сервере много TCP сессий открыто и срабатывают ограничения ядра OS (там где запущен zabbix agent)?

buklov
20-01-2010, 15:37
это терминальный сервер, 90 пользователей, windows 2003 ent
вроде не должно быть ограничений

dima_dm
20-01-2010, 15:42
Захватите снифером трафик, и посмотрите, кто является инициатором разрыва tcp 10050 соединения