Ad Widget

Collapse

Отваливается агент Windows

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • bercut-vermut
    Junior Member
    • Sep 2017
    • 13

    #1

    Отваливается агент Windows

    Всем добрый день
    Регулярно отваливается агент на нескольких серверах при попытке считать стандартные счетчики, в Debug 4 на стороне агента типа такого:
    Code:
     19876:20171103:104226.072 get_perf_counter_value_by_path(): cannot collect data '\\SRVIT4\System\File Read Bytes/sec': [0x00000102] unable to find message text: [0x0000013D] The system cannot find message text for message number 0x%1 in the message file for %2.
     19876:20171103:104226.072 get_perf_counter_value_by_path(): cannot calculate counter value '\\SRVIT4\System\File Read Bytes/sec': [0x00000102] unable to find message text: [0x0000013D] The system cannot find message text for message number 0x%1 in the message file for %2.
    На стороне сервера в этот момент:
    Code:
     17865:20171103:083720.441 Zabbix agent item "system.cpu.util[,,avg1]" on host "SRVIT1" failed: first network error, wait for 15 seconds
     17865:20171103:083733.447 Zabbix agent item "system.cpu.load[percpu,avg5]" on host "SRVIT4" failed: another network error, wait for 15 seconds
     17865:20171103:083735.461 resuming Zabbix agent checks on host "SRVIT1": connection restored
     17865:20171103:083739.494 Zabbix agent item "perf_counter[\234(_Total)\1404]" on host "SRVIT1" failed: first network error, wait for 15 seconds
     17865:20171103:083748.503 resuming Zabbix agent checks on host "SRVIT4": connection restored
    В этот момент на серверах полно свободных ресурсов и замечательно работает Nagios, получая те же данные. Пробовал менять версию агента, разрядность и различное "авось" (типа таймаутов, startagents и прочего). Проявляется на разных операционных системах Windows (2008/2012R2). Не постоянно, несколько раз в час, поэтому количество ложных писем "тревога, парень" ужасает. Реагировать на них нет смысла, но хуже всего, что нет данных.
    Версия zabbix 3.4.3
    Приятного мало, т.к. вначале были просто пропадания данных, теперь вообще агенты отваливаются.
    У кого-нибудь такое встречалось ? И как оно лечится ?
    Или смириться и оставаться на Nagios (за все время экспериментов ни одного лишнего аларма с этих хостов) ?
  • Delik
    Junior Member
    • Sep 2017
    • 10

    #2
    Проверьте файерволы
    У меня были похожие проблемы, но на линукс серверах
    Оказалось блочил SE Linux

    Comment

    • bercut-vermut
      Junior Member
      • Sep 2017
      • 13

      #3
      Брандмауэр выключен политиками домена, агент Nagios не падает, на сервере Zabbix selinux не установлен, iptables разрешают все везде
      Если мониторить не счетчики, а ping самого агента - не падает (во всяком случае - при таком раскладе за ночь не было ни одного аларма, при добавлении счетчиков Windows опять беда)
      Думается однозначно не брандмауэр.

      Comment

      • Semiadmin
        Senior Member
        • Oct 2014
        • 1625

        #4
        Попробуйте увеличить значение параметра StartAgents в конфиге агента.

        Comment

        • bercut-vermut
          Junior Member
          • Sep 2017
          • 13

          #5
          Пробовал выставить 50 - все равно появляются проблемы

          Comment

          • Semiadmin
            Senior Member
            • Oct 2014
            • 1625

            #6
            Наблюдается такая же беда на нескольких хостах, правда Linux. Подключил свой шаблон для мониторинга tcp-соединений, есть явная корреляция между отсутствием agent ping и увеличением количества переотправленных сегментов. К сожалению, сетевое оборудование в данной инсталляции не в моей власти.

            Comment

            • bercut-vermut
              Junior Member
              • Sep 2017
              • 13

              #7
              Вести с полей:
              За выходные выявил пять счетчиков, на которые плачевно реагирует агент:
              Average disk read queue length
              Average disk write queue length
              CPU load (1 min average)
              CPU load (5 min average)
              CPU load (15 min average)
              выявил их методом перебора (добавлял из своего набора все по одному до проблемного)
              убрал их из шаблона со своим набором и раскинул на все "проблемные" - пока нет лишних алармов...
              (при добавлении одного из них - минут через пять.. максимум двадцать начинает зависать агент, потом регулярно падает)
              при этом в NSClient++ (агент Nagios под Windows) получает эти данные и не падает...
              выполнение внешних комманд у Zabbix агента проходит на ура... пока есть идея собирать данные об очереди на чтение/запись через внешнюю команду, а по процу ограничится утилизацией в процентах...
              как-то так... вроде и решение, вроде и нет

              Comment

              Working...