Ad Widget

Collapse

ZBX_TCP_READ() failed: [4] Interrupted system call

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • MightyDok
    Junior Member
    • Aug 2015
    • 3

    #1

    ZBX_TCP_READ() failed: [4] Interrupted system call

    Странный косяк, есть Centos 6 + Zabbix Agent 2.4.5. Если параметр Server выставить в FQDN сервера мониторинга, то очень часто сервер пишет что агент недоступен, в debug логе сервера возникают ошибки: "ZBX_TCP_READ() failed: [4] Interrupted system call".
    При этом количество busy poller process и unreachable poller process растет, даже если увеличиваю Timeout до 30.
    Как только выставляю IP или прописываю IP в hosts, то все становится нормально.
    Думал что проблема в DNS, мол стоит ограничение у хостера на количество запросов по одному домену, но нет. Проверил, могу нормально сделать 1000 запросов одного и того же домена через провайдерский DNS.

    В чем может быть проблема, что еще стоит посмотреть и проверить?
  • MightyDok
    Junior Member
    • Aug 2015
    • 3

    #2
    Открыл баг, посмотрим что скажут разработчики: https://support.zabbix.com/browse/ZBX-9769

    Comment

    • Kos
      Senior Member
      Zabbix Certified SpecialistZabbix Certified Professional
      • Aug 2015
      • 3404

      #3
      Честно говоря, не совсем понял Вашу проблему из описания.
      У нас на агентах ссылки на Zabbix-сервер прописаны именно как FQDN (и для параметра "Server=", и для параметра "ServerActive="), проблем нет.
      В каком режиме у Вас работает агент (активный, пассивный)?
      Правильно ли я понял, что речь идёт об активном режиме работы агента, но сообщения об ошибках чтения появляются в логе сервера? Если да - то непонятно, причём тут процессы-поллеры (они ведь опрашивают агентов, работающих в пассивном режиме; данные от агентов в активном режиме принимаются процессами-трапперами).
      Что тогда в логе агента?
      Где Вы увеличиваете тайм-ауты (на агенте или на сервере)?
      Last edited by Kos; 13-08-2015, 09:58.

      Comment

      • MightyDok
        Junior Member
        • Aug 2015
        • 3

        #4
        Originally posted by kos
        Честно говоря, не совсем понял Вашу проблему из описания.
        У нас на агентах ссылки на zabbix-сервер прописаны именно как fqdn (и для параметра "server=", и для параметра "serveractive="), проблем нет.
        В каком режиме у Вас работает агент (активный, пассивный)?
        Правильно ли я понял, что речь идёт об активном режиме работы агента, но сообщения об ошибках чтения появляются в логе сервера? Если да - то непонятно, причём тут процессы-поллеры (они ведь опрашивают агентов, работающих в пассивном режиме; данные от агентов в активном режиме принимаются процессами-трапперами).
        Что тогда в логе агента?
        Где Вы увеличиваете тайм-ауты (на агенте или на сервере)?
        Ответы на вопросы:
        Пассивный
        В логе агента все чисто, таких ошибок нет
        Таймауты и там и там

        Comment

        • Kos
          Senior Member
          Zabbix Certified SpecialistZabbix Certified Professional
          • Aug 2015
          • 3404

          #5
          Посмотрел повнимательнее скриншот, приложенный к Вашему ZBX-9769.

          Действительно, пассивный режим: соединение устанавливается сервером в сторону агента, передаются 29 байт данных (видимо, запрос), через 20 секунд сервером же инициируется разрыв соединения (видимо, срабатывает тайм-аут), но агент, получив FIN от сервера, его подтверждает, но соединение разорвать, тем не менее, не торопится. Лишь ещё через 15 секунд он пытается отослать на сервер свои данные (5 байт - видимо, ответ на запрос) и только тогда подтверждает разрыв соединения со своей стороны (FIN), но сервер к тому моменту уже соединение закрыл и эти данные отбрасывает (посылает RST). Всего на отсылку ответа у агента уходит 35,5 секунд, что в любом случае превышает все разумные тайм-ауты (даже увеличенные до максимума 30 секунд).

          Если Вы пишете, что замена FQDN на IP-адрес в параметре "Server=" либо явное прописывание соответствия FQDN сервера и его IP-ареса в файл hosts решают проблему, то, очевидно, что проблема в разрешении имён. На каждое входящее соединение агент проверяет, соответствует ли IP-адрес инициатора разрешённым (тот самый параметр "Server=" в конфиге агента). Для этого проверяется каждый из перечисленных там адресов, а если указано имя - то идёт обращение к службе разрешения имён (как правило, файл hosts, затем - DNS).

          Очень похоже, что в Вашем случае ответ от DNS периодически приходит с изрядной задержкой, что и приводит к наблюдаемому эффекту. Я, к сожалению, не силён конкретно в Centos-е, поэтому затрудяюсь давать конкретные рекомендации. Но можно, например, несколько раз выдать команду "time host FQDN_Zabbix_сервера" или "time nslookup FQDN_Zabbix_сервера", чтобы проверить эту версию. Если хотя бы иногда real time превышает десяток секунд - то это и есть Ваша проблема.

          Comment

          • yukra
            Senior Member
            • Apr 2013
            • 1359

            #6
            Я, к сожалению, не силён конкретно в Centos-е, поэтому затрудяюсь давать конкретные рекомендации.
            Поставить nscd, только врятли проблема решиться.

            Comment

            • viktorkho
              Member
              • Jul 2013
              • 90

              #7
              На самом деле проблема не нова, на разных форумах тут поднималась уже не раз.
              У меня из ~300 агентов больше половины имеют красный Z-индикатор (Get value from agent failed: ZBX_TCP_READ() failed: [104] Connection reset by peer).
              Все элементы - активные. FQDN. Всё работает. (Неожиданно.)

              Рич явно поторопился закрывать тикет. Дойдут руки - переоткрою билет. Если раньше не откроют.

              Comment

              • Daikazahn
                Member
                • Nov 2016
                • 69

                #8
                День добрый!
                Проблема только в версии 2.4.5?
                У кого-нибудь потверждается на более старшей версии?

                Comment

                • Kos
                  Senior Member
                  Zabbix Certified SpecialistZabbix Certified Professional
                  • Aug 2015
                  • 3404

                  #9
                  Originally posted by Daikazahn
                  Проблема только в версии 2.4.5?
                  Смотря какая проблема. У автора темы, судя по всему, проблема была с разрешением имён (работа службы DNS и т.п.). Вряд ли она зависит от версии агента Zabbix.

                  Comment

                  Working...