Ad Widget

Collapse

agent.ping error: [Interrupted system call]

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • alex_kotovsky
    Junior Member
    • Mar 2011
    • 8

    #1

    agent.ping error: [Interrupted system call]

    Всем привет!

    Исходные данные:
    Сервер: CentOS 5.4 версия zabbix'а v1.6.6 (revision 7836)
    Клиент: CentOS 5.5 версия агента: 1.8.4 (revision 16604)

    Мониторинг работает, и собственно мониторит несколько серверов.
    Сейчас добавил еще десяток, но везде ошибка вида:

    Статус: Get value from agent failed: Cannot connect to [x.x.x.232:10050] [Interrupted system call]

    Основное отличие от того что уже мониторится, что у хостов внешние адреса, а у тех что были до этого - внутренние.

    Проверка доступности сервера с клиента:

    telnet monitoring.x.ru 10051
    Trying x.x.x.76...
    Connected to monitoring.x.ru.
    Escape character is '^]'.

    Connection closed by foreign host.
    Доступно.

    Проверка доступности с сервера клиента:

    telnet x.x.x.232 10050
    Trying x.x.x.232...
    Connected to portal.x.ru (x.x.x.232).
    Escape character is '^]'.
    agent.version
    ZBXD1.8.4Connection closed by foreign host.
    Доступно.

    Руками с сервера:

    /usr/local/sbin/zabbix_get -s portal.x.ru -k agent.ping
    1

    В логах:

    24042:20110323:134735 Item [portal.x.ru:agent.ping] error: Get value from agent failed: Cannot connect to [x.x.x.232:10050] [Interrupted system call]
    Менял методы контроля - по ip иди по DNS - результата не принесло.

    Следуя рекомендациям увеличил таймауты, но тоже мимо.

    Подскажите, что мне можно предпринять в данной ситуации?

    p.s. по некоторым причинам я не могу изменить и обновить версию сервера.
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    Timeout меняли как написано здесь?

    Перезапустили zabbix_agent и zabbix_server.
    У вас Zabbix Passive проверки, поэтому интересно только
    /usr/local/sbin/zabbix_get -s portal.x.ru -k agent.ping
    с Zabbix Server.
    Если есть очередь Администрирование-> Очередь, нужно увеличивать количество Pollers.
    /etc/zabbix/zabbix_server.conf
    StartPollers

    Comment

    • alex_kotovsky
      Junior Member
      • Mar 2011
      • 8

      #3
      Да, выставлял timeout'ы согласно этому посту.

      Проверки активные - запущен zabbix_agentd
      Проверку на пинг руками запускал для теста.

      Проверил очередь - там все замечательно, нет ни одной задержки.

      Еще важное замечание: возможно оно натолкнет на какие то мысли:

      Сервера которые уже мониторятся имеют внутренние адреса, и обращаются на внутренний интерфейс системы мониторинга.

      Новые сервера имеют внешние адреса, и обращаются на внешний адрес системы мониторинга.
      Для теста пробовал с внешнего адреса обращаться на внутренний адрес сервера - результат тот же.

      По сетевой части (доступность) проблем никаких нет.

      Comment

      • dima_dm
        Senior Member
        • Dec 2009
        • 2697

        #4
        Ошибка
        24042:20110323:134735 Item [portal.x.ru:agent.ping] error: Get value from agent failed: Cannot connect to [x.x.x.232:10050]
        Относится исключительно к Zabbix Passive проверкам. Ищите Zabbix (passive) на закладке Item для хоста.
        Может это Firewall (по pid или user_ID)?
        Можно получить данные в процессе работающим от пользователя zabbix?
        su - zabbix
        zabbix_get -s IP -k agent.ping

        Для Zabbix Active
        /etc/zabbix/zabbix_agentd.conf
        Hostname=server.name в zabbix_agentd.conf должен с точностью до регистра совпадать с названием хоста в Web интерфейсе Zabbix.
        Server=172.16.1.250,127.0.0.1

        Только первый ip адрес в списке используется для запроса активных проверок и отправки их результатов. Все адреса в списке - это адреса с которых агент будет принимать входящие подключения (пассивные проверки) и будет отдавать результат.
        Last edited by dima_dm; 23-03-2011, 17:29.

        Comment

        • alex_kotovsky
          Junior Member
          • Mar 2011
          • 8

          #5
          Originally posted by dima_dm
          Ошибка
          24042:20110323:134735 item [portal.x.ru:agent.ping] error: Get value from agent failed: Cannot connect to [x.x.x.232:10050]
          Относится исключительно к zabbix passive проверкам. Ищите zabbix (passive) на закладке item для хоста.
          Может это firewall (по pid или user_id)?
          Можно получить данные в процессе работающим от пользователя zabbix?
          Su - zabbix
          zabbix_get -s ip -k agent.ping
          На вкладке items данные проверки активны.
          По firewall несовсем понял. Если имелось ввиду что то вроде selinux - то отключено.

          С сервера из под пользователя zabbix попробовал выполнить команду:

          zabbix_get -s 93.92.136.232 -k agent.ping
          1
          Для zabbix active
          /etc/zabbix/zabbix_agentd.conf
          hostname=server.name в zabbix_agentd.conf должен с точностью до регистра совпадать с названием хоста в web интерфейсе zabbix.
          тут все точно, все совпадает, и там и там указанные полные доменные имена.

          Да, возможно это имеет важное значение, zabbix агенты запущены внутри openvz контейнеров.

          Comment

          • dima_dm
            Senior Member
            • Dec 2009
            • 2697

            #6
            Originally posted by alex_kotovsky
            По firewall несовсем понял.
            Я имел ввиду iptables и ключи вроде --pid-owner, --uid-owner и т.д.

            Comment

            • alex_kotovsky
              Junior Member
              • Mar 2011
              • 8

              #7
              Originally posted by dima_dm
              Я имел ввиду iptables и ключи вроде --pid-owner, --uid-owner и т.д.
              На время тестов и настройки firewall и вовсе отключен :-(

              Comment

              • dima_dm
                Senior Member
                • Dec 2009
                • 2697

                #8
                так может у вас сетевые проблемы, и узел действительно время от времени недоступен?
                Запустить tcpdump и посмотрите трафик на порт TCP10050 с конкретным хостом. Проанализируйте, что происходит в момент проблемы.

                Comment

                • alex_kotovsky
                  Junior Member
                  • Mar 2011
                  • 8

                  #9
                  Originally posted by dima_dm
                  так может у вас сетевые проблемы, и узел действительно время от времени недоступен?
                  Запустить tcpdump и посмотрите трафик на порт tcp10050 с конкретным хостом. Проанализируйте, что происходит в момент проблемы.
                  Вероятность проблем с сетью минимальная. В общем и целом новые сервера подключены к тому же каталисту что и те что уже мониторятся, стоят в той же стойке :-(
                  Пока единственная зацепка, вернее единственное отличии это внешние/внутренние адреса.
                  Ума не приложу в чем может быть дело.

                  Comment

                  • dima_dm
                    Senior Member
                    • Dec 2009
                    • 2697

                    #10
                    Может у вас на сервере несколько сетевых карт/интерфейсов и установлен SourceIP?
                    /etc/zabbix/zabbix_server.conf
                    SourceIP=
                    Трафик tcpdump-ом сняли?
                    Last edited by dima_dm; 24-03-2011, 11:00.

                    Comment

                    • alex_kotovsky
                      Junior Member
                      • Mar 2011
                      • 8

                      #11
                      Originally posted by dima_dm
                      Может у вас на сервере несколько сетевых карт/интерфейсов и установлен SourceIP?
                      /etc/zabbix/zabbix_server.conf
                      SourceIP=
                      Трафик tcpdump-ом сняли?
                      Уже видимо ближе.
                      Да действительно, на севере мониторинга 2 сетевые карты - внутренний и внешний интерфейс.
                      В качестве source ip указан внутренний адрес.
                      НО! (важное замечание), он (внутренний адрес) доступен с серверов которые я сейчас пытаюсь поставить на мониторинг.

                      По поводу tcpdump:
                      Насколько я понял нужно снять следующим образом:
                      tcpdump -i <интерфейс с sourceip> host x.x.x.x <- ip проблемного сервера.

                      Я прав?

                      Comment

                      • dima_dm
                        Senior Member
                        • Dec 2009
                        • 2697

                        #12
                        Закомментируйте SourceIP= и будет вам счастье.

                        Originally posted by alex_kotovsky
                        По поводу tcpdump:
                        Насколько я понял нужно снять следующим образом:
                        tcpdump -i <интерфейс с sourceip> host x.x.x.x <- ip проблемного сервера.

                        Я прав?
                        Да. Лучше так
                        /usr/sbin/tcpdump -i eth0 -nn "host IP and tcp port 10050"
                        Чтобы вычленить только нужный трафик.

                        Comment

                        • alex_kotovsky
                          Junior Member
                          • Mar 2011
                          • 8

                          #13
                          Originally posted by dima_dm
                          Закомментируйте sourceip= и будет вам счастье.
                          Ура! :-))))))

                          Дело действительно было в этом!
                          Громаднейшее Вам спасибо за помощь и содействие!
                          Пойду сервера на контроль ставить :-)

                          Comment

                          Working...