Ad Widget

Collapse

Зависает zabbix-агент

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Leshkan
    Junior Member
    • Aug 2018
    • 8

    #1

    Зависает zabbix-агент

    Доброго времени суток!

    Есть Windows Server 2003. На нем установлен агент 3.4.6.
    Агент зависает после некоторого времени работы и не отвисает до перезапуска службы Zabbix Agent.
    После перезапуска опять зависает через некоторое время работы.
    Если при зависшем агенте с Zabbix-сервера выполнить zabbix-get - получается следующее:

    [root@zabbix-server ~]# zabbix_get -s 192.168.0.50 -k agent.version
    zabbix_get [6259]: Get value error: ZBX_TCP_READ() failed: [104] Connection reset by peer
    zabbix_get [6259]: Check access restrictions in Zabbix agent configuration

    Подскажите пожалуйста, в чем может быть причина, и как исправить.
  • Victor Vislobokov
    Senior Member
    • Aug 2018
    • 298

    #2
    Не знаю, почему, но я бы:
    1. Внимательно изучил все доступные журналы Windows на предмет ошибок связанных с данной службой
    2. Проверил настройки firewall для порта на который вешается служба zabbix-agent - дал бы соответствующие разрешения

    Comment

    • Leshkan
      Junior Member
      • Aug 2018
      • 8

      #3
      Здравствуйте!

      Журналы Windows и Zabbix-агента проверял. Ничего касаемо зависаний там нет.
      Фаервола нет ни на zabbix-сервере, ни на сервере, где установлен агент, ни между ними.
      Как уже было сказано, агент нормально функционирует какое-то время (в последний раз работал нормально около 11 часов, потом завис и пришло уведомление "Zabbix agent on newserver is unreachable for 5 minutes").

      Comment

      • Kos
        Senior Member
        Zabbix Certified SpecialistZabbix Certified Professional
        • Aug 2015
        • 3404

        #4
        На машинах, где установлены Zabbix-сервер и Zabbix-агент, только по одному сетевому интерфейсу? И по одному IP-адресу?
        Сообщение "Check access restrictions in Zabbix agent configuration", как правило, выдаётся в случае, когда запрос от Zabbix-сервера приходит к агенту не с того адреса, который был указан в списке разрешённых (параметр "Server=" в конфиге агента Zabbix).
        Смотрите лог агента Zabbix: вполне возможно, что увидите там сообщения вроде таких:
        Code:
        failed to accept an incoming connection: connection from "192.168.XXX.XXX" rejected, allowed hosts: "...."

        Comment

        • Leshkan
          Junior Member
          • Aug 2018
          • 8

          #5
          Здравствуйте!

          На zabbix-сервере 1 интерфейс и ip-адрес, на машине с агентом 2 интерфейса (один интерфейс отключен программно в windows) и 1 ip-адрес.
          В логе агента такого сообщения нет.

          Comment

          • Kos
            Senior Member
            Zabbix Certified SpecialistZabbix Certified Professional
            • Aug 2015
            • 3404

            #6
            Странно. А команда
            Code:
            netstat -n -a -p TCP | find ":10050"
            на компьютере с агентом показывает, что там есть ожидание соединения (состояние LISTENING - как правило, на адресе 0.0.0.0, если специально не ограничивали)?
            В логе агента больше никаких подозрительных сообщений нет?
            Само соединение на порт 10050 от Zabbix-сервера до Zabbix-агента установить можно (хотя бы telnet-ом попробовать)? Если нет - меняется ли ситуация после рестарта агента?
            Может, какие-нибудь другие компоненты втихаря саботируют (скажем, антивирус)?

            Comment

            • Leshkan
              Junior Member
              • Aug 2018
              • 8

              #7
              Команда netstat -n -a -p TCP | find ":10050" даёт следующий вывод:

              TCP 0.0.0.0:10050 0.0.0.0:0 LISTENING

              Телнет с сервера на агент выдает следующее:

              [root@zabbix-server ~]# telnet 192.168.0.50 10050
              Trying 192.168.0.50...
              Connected to 192.168.0.50.
              Escape character is '^]'.
              Connection closed by foreign host.

              При остановке службы агента выдает ошибку:

              Could not stop Zabbix Agent service on Local Computer
              Error 1053: The service did not respond to the start or control request in a timely fashion.

              Тем не менее служба агента останавливается.
              Далее если запускать - стартует нормально.
              И агент работает нормально, только некоторое время (последний раз около 6 часов проработал).
              Потом опять зависает и проблема повторяется.

              Comment

              • Kos
                Senior Member
                Zabbix Certified SpecialistZabbix Certified Professional
                • Aug 2015
                • 3404

                #8
                Ага, то есть, всё-таки порт прослушивается и соединение устанавливается (а потом сбрасывается на стороне агента).
                При тестировании телнетом - между появлением строки
                Code:
                Escape character is '^]'.
                и
                Code:
                Connection closed by foreign host.
                сколько времени проходит?
                Если заданное в конфиге агента параметром "Timeout=" (по умолчанию - 3 или 4 секунды), то всё нормально; если отключается сразу же без ожидания - то, всё-таки, его кто-то обрывает (и понять бы, кто - сам ли агент, операционка, или же ещё кто-то - антивирус, DeviceLock, Windows Defender и т.п.).
                А в логе агента точно-точно никакой ругани нет? И параметр "DebugLevel=" в конфиге агента выставлен по умолчанию (3 либо закомментирован)?
                Ну, можно, разве что, выставить его в 4 (правда, тогда лог будет достаточно подробным), и далее пытаться в проблемное время обращаться к агенту (скажем, через zabbix_get с сервера) и анализировать, что появляется в логе именно в этот момент.

                Теоретически ещё возможен вариант, что по какой-то причине либо Zabbix-сервер, либо кто-то посторонний "бомбит" агента запросами на порт 10050, которые агент просто не успевает обрабатывать своими тремя (по умолчанию, параметр "StartAgents=") процессами. Но тогда бы вы видели эти соединения в выводе команды "netstat" (в статусе ESTABLISHED или TIME_WAIT*), а этого нет; да и в логе агента, скорее всего, какая-нибудь ругань да была бы.

                Comment

                • Leshkan
                  Junior Member
                  • Aug 2018
                  • 8

                  #9
                  При зависшем агенте соединение устанавливается и разрывается сразу же.
                  Антивирусов/фаерволлов в системе не установлено.
                  В логе ругани никакой нет.
                  Попробую выставить уровень дебага в 4.


                  Comment

                  • sadman
                    Senior Member
                    • Dec 2010
                    • 1611

                    #10
                    Было схожее и тоже на 2003-м сервере. Один экземпляр функционировал нормально, на втором агент периодически выжирал кучу памяти и вешался. Агент 2.x, настройки дефолтные. Разбираться не стали.

                    Comment

                    • Semiadmin
                      Senior Member
                      • Oct 2014
                      • 1625

                      #11
                      Возможно, проблема не в агенте, а в метриках, которые он пытается собирать. Я бы глянул, что там на этом хосте в unsupported.

                      Comment

                      Working...