Всем привет, прошу помощи.
Есть zabbix сервер 2.4.5 с помощью которого мониторится много всего, в том числе мониторим Jboss. мониторим 2 способами. Устаревшим Zapcat работает нормально (но не у всех клиентов это возможно), а также с помощью zabbix java gateway. До недавнего времени работало нормально. Потом началось следующее (что было сделано уже вспомнить нереально)
перезапускаем шлюз и сервер /etc/init.d/... restart данные капают 5-8 мин и перестают. при этом статус шлюза активный. в процессах:
[root@zabbix-** ~]# ps ax | grep poller
3986 pts/1 S+ 0:00 grep poller
10622 ? S 7:54 zabbix_server: poller #1 [got 7 values in 0.141600 sec, idle 1 sec]
10623 ? S 7:53 zabbix_server: poller #2 [got 5 values in 0.105994 sec, idle 1 sec]
10624 ? S 7:53 zabbix_server: poller #3 [got 7 values in 0.174527 sec, idle 1 sec]
10625 ? S 7:50 zabbix_server: poller #4 [got 7 values in 0.082566 sec, idle 1 sec]
10626 ? S 7:53 zabbix_server: poller #5 [got 11 values in 0.117728 sec, idle 1 sec]
10627 ? S 0:33 zabbix_server: unreachable poller #1 [got 1 values in 6.007660 sec, getting values]
10637 ? S 0:09 zabbix_server: http poller #1 [got 0 values in 0.001149 sec, idle 5 sec]
10644 ? S 0:06 zabbix_server: java poller #1 [got 0 values in 0.000159 sec, idle 5 sec]
10645 ? S 0:07 zabbix_server: java poller #2 [got 0 values in 0.000394 sec, idle 5 sec]
10646 ? S 0:07 zabbix_server: java poller #3 [got 0 values in 0.000321 sec, idle 5 sec]
10647 ? S 0:07 zabbix_server: java poller #4 [got 0 values in 0.000114 sec, idle 5 sec]
10648 ? S 0:06 zabbix_server: java poller #5 [got 0 values in 0.000095 sec, idle 5 sec]
13553 ? Sl 0:03 java -server -classpath lib:lib/android-json-4.3_r3.1.jar:lib/logback-classic-0.9.27.jar:lib/logback-core-0.9.27.jar:lib/slf4j-api-1.6.1.jar:bin/zabbix-java-gateway-2.4.6.jar -Dzabbix.pidFile=/var/run/zabbix/zabbix_java.pid -Dzabbix.listenPort=10053 com.zabbix.gateway.JavaGateway
на стороне клиента:
13103 ? Sl 12921:41 /usr/local/jdk/bin/java -Dprogram.name=run.sh -server -XgcPrio:throughput -Xms2G -Xmx2G -Xss256k -XXtlasize:min=4k,preferred=256k -Duser.timezone=Europe/Moscow -Dtve.ws.client.connectTimeout=25000 -Dtve.ws.client.readTimeout=25000 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=10052 -Dcom.sun.management.jmxremote.authenticate=true -Dcom.sun.management.jmxremote.password.file=/opt/jboss/bin/jmxremote.password -Dcom.sun.management.jmxremote.access.file=/opt/jboss/bin/jmxremote.access -Dcom.sun.management.jmxremote.ssl=false -Djava.net.preferIPv4Stack=true -Xmanagement:ssl=false,authenticate=false,port=7091 -Djboss.platform.mbeanserver -Dsun.net.client.defaultConnectTimeout=30000 -Dsun.net.client.defaultReadTimeout=30000 -Djava.io.tmpdir=/opt/jboss/tmp -Djavax.management.builder.initial=org.jboss.system .server.jmx.MBeanServerBuilderImpl -Djava.util.logging.config.file=/opt/jboss/server/default/conf/restlet-log.properties -Dorg.terracotta.quartz.skipUpdateCheck=true -Djava.endorsed.dirs=/opt/jboss/lib/endorsed -classpath /opt/jboss/bin/run.jar:/usr/local/jdk/lib/tools.jar:/etc/tve org.jboss.Main -c default -b 0.0.0.0
ps в настройках gateway и zabbix конф порт указан 10053
Настройка узла:
макросы
график выглядит так после перезагрузки сервисов немного работает и потом все
настройка run файлика приложения:
файлики с логином и паролем конечно есть.
логи в файле zabbix_java_gateway.log после перезагрузки какое-то время сыпятся, потом просто прекращаются, когда начинается проблема.
Вот лог, который я нашел в логе zabbix_server.log
JMX agent item "jmx["jboss.jetty:type=hashsessionmanager,id=6","maxSes sions"]" on host "***-***1" failed: another network error, wait for 15 seconds
такой падает по всем хостам где работает java gateway, когда он перестает работать
и еще такой:
temporarily disabling JMX agent checks on host "****": host unavailable
вот скрин лога для примера
зы после перезагрузки значек JMX синеет на то время, пока работает, потом краснеет с ошибкой:
ZBX_TCP_READ() failed: [4] Interrupted system call
дамп снимал, сетевых проблем нет, если есть запрос есть и ответ. порт доступен пинги не падают, нет потерь ни одного пакета.
версия шлюза была последняя, вчера для теста поставил предпоследнюю (ничего не изменилось), брал с сайта заббикса.
[root@*** zabbix]# rpm -qa | grep zabbix
zabbix-server-2.4.7-1.el6.x86_64
zabbix-java-gateway-2.4.6-1.el6.x86_64
zabbix-server-mysql-2.4.7-1.el6.x86_64
zabbix-agent-2.4.7-1.el6.x86_64
zabbix-web-2.4.5-5.el6.art.noarch
zabbix-2.4.7-1.el6.x86_64
zabbix-release-2.4-1.el6.noarch
zabbix-web-mysql-2.4.5-5.el6.art.noarch
Подскажите, может что проверить, как еще продиагностировать, какие могут быть варианты еще?
Заранее спасибо.
Есть zabbix сервер 2.4.5 с помощью которого мониторится много всего, в том числе мониторим Jboss. мониторим 2 способами. Устаревшим Zapcat работает нормально (но не у всех клиентов это возможно), а также с помощью zabbix java gateway. До недавнего времени работало нормально. Потом началось следующее (что было сделано уже вспомнить нереально)
перезапускаем шлюз и сервер /etc/init.d/... restart данные капают 5-8 мин и перестают. при этом статус шлюза активный. в процессах:
[root@zabbix-** ~]# ps ax | grep poller
3986 pts/1 S+ 0:00 grep poller
10622 ? S 7:54 zabbix_server: poller #1 [got 7 values in 0.141600 sec, idle 1 sec]
10623 ? S 7:53 zabbix_server: poller #2 [got 5 values in 0.105994 sec, idle 1 sec]
10624 ? S 7:53 zabbix_server: poller #3 [got 7 values in 0.174527 sec, idle 1 sec]
10625 ? S 7:50 zabbix_server: poller #4 [got 7 values in 0.082566 sec, idle 1 sec]
10626 ? S 7:53 zabbix_server: poller #5 [got 11 values in 0.117728 sec, idle 1 sec]
10627 ? S 0:33 zabbix_server: unreachable poller #1 [got 1 values in 6.007660 sec, getting values]
10637 ? S 0:09 zabbix_server: http poller #1 [got 0 values in 0.001149 sec, idle 5 sec]
10644 ? S 0:06 zabbix_server: java poller #1 [got 0 values in 0.000159 sec, idle 5 sec]
10645 ? S 0:07 zabbix_server: java poller #2 [got 0 values in 0.000394 sec, idle 5 sec]
10646 ? S 0:07 zabbix_server: java poller #3 [got 0 values in 0.000321 sec, idle 5 sec]
10647 ? S 0:07 zabbix_server: java poller #4 [got 0 values in 0.000114 sec, idle 5 sec]
10648 ? S 0:06 zabbix_server: java poller #5 [got 0 values in 0.000095 sec, idle 5 sec]
13553 ? Sl 0:03 java -server -classpath lib:lib/android-json-4.3_r3.1.jar:lib/logback-classic-0.9.27.jar:lib/logback-core-0.9.27.jar:lib/slf4j-api-1.6.1.jar:bin/zabbix-java-gateway-2.4.6.jar -Dzabbix.pidFile=/var/run/zabbix/zabbix_java.pid -Dzabbix.listenPort=10053 com.zabbix.gateway.JavaGateway
на стороне клиента:
13103 ? Sl 12921:41 /usr/local/jdk/bin/java -Dprogram.name=run.sh -server -XgcPrio:throughput -Xms2G -Xmx2G -Xss256k -XXtlasize:min=4k,preferred=256k -Duser.timezone=Europe/Moscow -Dtve.ws.client.connectTimeout=25000 -Dtve.ws.client.readTimeout=25000 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=10052 -Dcom.sun.management.jmxremote.authenticate=true -Dcom.sun.management.jmxremote.password.file=/opt/jboss/bin/jmxremote.password -Dcom.sun.management.jmxremote.access.file=/opt/jboss/bin/jmxremote.access -Dcom.sun.management.jmxremote.ssl=false -Djava.net.preferIPv4Stack=true -Xmanagement:ssl=false,authenticate=false,port=7091 -Djboss.platform.mbeanserver -Dsun.net.client.defaultConnectTimeout=30000 -Dsun.net.client.defaultReadTimeout=30000 -Djava.io.tmpdir=/opt/jboss/tmp -Djavax.management.builder.initial=org.jboss.system .server.jmx.MBeanServerBuilderImpl -Djava.util.logging.config.file=/opt/jboss/server/default/conf/restlet-log.properties -Dorg.terracotta.quartz.skipUpdateCheck=true -Djava.endorsed.dirs=/opt/jboss/lib/endorsed -classpath /opt/jboss/bin/run.jar:/usr/local/jdk/lib/tools.jar:/etc/tve org.jboss.Main -c default -b 0.0.0.0
ps в настройках gateway и zabbix конф порт указан 10053
Настройка узла:
макросы
график выглядит так после перезагрузки сервисов немного работает и потом все
настройка run файлика приложения:
файлики с логином и паролем конечно есть.
логи в файле zabbix_java_gateway.log после перезагрузки какое-то время сыпятся, потом просто прекращаются, когда начинается проблема.
Вот лог, который я нашел в логе zabbix_server.log
JMX agent item "jmx["jboss.jetty:type=hashsessionmanager,id=6","maxSes sions"]" on host "***-***1" failed: another network error, wait for 15 seconds
такой падает по всем хостам где работает java gateway, когда он перестает работать
и еще такой:
temporarily disabling JMX agent checks on host "****": host unavailable
вот скрин лога для примера
зы после перезагрузки значек JMX синеет на то время, пока работает, потом краснеет с ошибкой:
ZBX_TCP_READ() failed: [4] Interrupted system call
дамп снимал, сетевых проблем нет, если есть запрос есть и ответ. порт доступен пинги не падают, нет потерь ни одного пакета.
версия шлюза была последняя, вчера для теста поставил предпоследнюю (ничего не изменилось), брал с сайта заббикса.
[root@*** zabbix]# rpm -qa | grep zabbix
zabbix-server-2.4.7-1.el6.x86_64
zabbix-java-gateway-2.4.6-1.el6.x86_64
zabbix-server-mysql-2.4.7-1.el6.x86_64
zabbix-agent-2.4.7-1.el6.x86_64
zabbix-web-2.4.5-5.el6.art.noarch
zabbix-2.4.7-1.el6.x86_64
zabbix-release-2.4-1.el6.noarch
zabbix-web-mysql-2.4.5-5.el6.art.noarch
Подскажите, может что проверить, как еще продиагностировать, какие могут быть варианты еще?
Заранее спасибо.
Comment