Ad Widget

Collapse

Zabbix сервер не опрашивает агенты

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • As_lan
    Junior Member
    • Apr 2011
    • 20

    #1

    Zabbix сервер не опрашивает агенты

    Zabbix 3.0.2. Ubuntu x64 14.04.

    Некоторое время назад заметил, что перезагруженные сервера (которые мониторятся забиксом) перестают мониторится. При этом сама служба забикс агента работает. На запросы через zabbix_get (с сервера забикса) отвечает, данные отдает. Но вот в вебке горит "Zabbix agent on ..... is unreachable for 5 minutes". Помогает только перезапуск службы Zabbix Server. Но если опять перезапустить службу агента, то опять отвалится.

    Телнетом к забикс агенту подключается(в прочем ничего удивительного, ведь zabbix_get получает данные)

    В логах ничего. Ни у агента ни у сервера.

    В вебке в статусе "Доступность" у сервера горит зеленым. Причем удивительно то, что если остановить службу агента, то он все равно продолжает гореть зеленым о_О.

    Куда копать не знаю. Повторюсь в логах чисто. Проблема исчезает только после перезагрузки сервера и повторяется если перезапустить агент.
  • karik-himik
    Senior Member
    • Oct 2015
    • 116

    #2
    Originally posted by as_lan
    В логах ничего. Ни у агента ни у сервера.
    Вообще ничего ? лог пустой ? или ничего подозрительного ?
    А уровень логгирования дефолтный ? Или даже с уровнем 4 или 5 в логах ничего ?

    Comment

    • As_lan
      Junior Member
      • Apr 2011
      • 20

      #3
      Конечно в смысле ничего подозрительного. Ставил уровень в 4. так же ничего подозрительного не увидел. В момент перезапуска агента сообщается что связь потеряна и будет повторная попытка через 15 секунд, но видимо повторной попытки нет и сервер перестает наблюдать за этим узлом.

      Comment

      • karik-himik
        Senior Member
        • Oct 2015
        • 116

        #4
        Хм... не знаю, как сэмулировать вашу проблему, чтобы самому посмотреть.

        А что говорит какой-нибудь netstat ? В каком состоянии соединения и много ли их в тот момент, когда связь отваливается ?
        Можно еще Wireshark-ом посмотреть что происходит в этот момент

        А проверки активные или пассивные ?

        Comment

        • As_lan
          Junior Member
          • Apr 2011
          • 20

          #5
          На разных серверах по разному. Где-то есть активные, где-то пассивные. ОТ этого не зависит.

          Netstat и tcpdump сегодня еще посмотрю. Надо будет деактивировать все узлы, иначе в таком потоке данных ничего не поймешь в tcpdump.

          Comment

          • karik-himik
            Senior Member
            • Oct 2015
            • 116

            #6
            А попробуйте для начала на клиенте собрать траффик, чтобы все узлы не деактивировать. Вдруг и не понадобится

            Comment

            • tivrobo
              Junior Member
              • May 2014
              • 9

              #7
              присоединяюсь к треду

              Добрый день, коллеги!

              Хочу присоединиться к треду, т.к. у меня аналогичная проблема (я так думаю).

              Мой конфиг:
              zabbix_server (Zabbix) 3.0.2
              zabbix_proxy (Zabbix) 3.0.3
              zabbix_agentd Win64 (service) (Zabbix) 3.0.0

              Симптомы следующие:
              Есть Windows Server 2012 R2 Core (2 сервера), на котором установлен агент, используются пассивные проверки.
              Время от времени срабатывает триггер "Zabbix agent on {HOST.NAME} is unreachable for 5 minutes".

              В этот момент со стороны Zabbix Proxy:
              тест подключения телнетом на 10050 порт - работает
              zabbix_get выдает ошибку: Timeout while executing operation

              Логи Zabbix Proxy: proxy-log.zip

              Со стороны Zabbix Agent:
              Сервер работает, служба агента запущенна, логи пишутся, но если посмотреть netstat, то видно куча подключений к zabbix_agentd.exe от Zabbix Proxy со статусом CLOSE_WAIT

              Момент, когда подключения переходят в CLOSE_WAIT:


              Нормальная работа агента:


              По наблюдениям - есть четкая связь между тем, когда подключения "зависают" и доступностью агента в Zabbix Server.
              Т.е. агент перестает работать, когда соединения не закрываются, а остаются висеть в CLOSE_WAIT и все становиться хорошо, когда Windows завершает эти подключения по таймауту (https://blogs.technet.microsoft.com/...ng-close_wait/).

              Логи Zabbix Agent: agent-log.zip

              P.S. аналогичная проблема на этих серверах была и на платформе 2.4
              Last edited by tivrobo; 31-05-2016, 16:24. Reason: уточнение

              Comment

              • As_lan
                Junior Member
                • Apr 2011
                • 20

                #8
                На счет вашего случая не могу сказать, но у себя кажется нашел причину, сейчас хочу убедиться что я не ошибаюсь, поэтому тестирую. А проблема была в Пользовательской проверке, которая выполнялась скриптом. Скрипт выполнялся долго, из-за чего в этот момент агент переставал отвечать на запросы. Причем странно то, что скрипт только на одном узле, я отвалиться мог любой узел. Возможно причина в другом. На днях обновления для сервера и агента появились в репозиториях. Может после обновления проблема исчезла.

                Comment

                • tivrobo
                  Junior Member
                  • May 2014
                  • 9

                  #9
                  Тогда вам необходимо увеличить Timeout на агенте

                  Comment

                  • As_lan
                    Junior Member
                    • Apr 2011
                    • 20

                    #10
                    Пробовал) ставил даже 30.

                    Comment

                    • tivrobo
                      Junior Member
                      • May 2014
                      • 9

                      #11
                      Originally posted by As_lan
                      Пробовал) ставил даже 30.
                      а сколько по времени выполняется ваш скрипт?

                      и кстати от этого хост не должен становится unreachable, просто проверка не будет работать

                      вы все таки посмотрите на проблемном хосте netstat -nab | findstr 10050

                      Comment

                      • As_lan
                        Junior Member
                        • Apr 2011
                        • 20

                        #12
                        Ну вот и я удивился, почему из-за одного скрипта столько проблем.

                        Сейчас вроде бы все работает. Если проблема повторится - проверю =)

                        Comment

                        Working...