Ad Widget

Collapse

Не понятна работа zabbix[host,agent,available]

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • teddy
    Senior Member
    • Dec 2017
    • 234

    #1

    Не понятна работа zabbix[host,agent,available]

    Коллеги!
    подскажите что я делаю не правильно.
    Имеется zabbix.server 6.2
    Имеется zabbix.client 6.0 - но ту в принципе не важно

    В стандартном шаблоне в 6.Х для доступности агента используется функция zabbix[host,agent,available].
    Так вот даже после того как полностью погасить агента на клиентской машине эта функция продолжает отдавать 1, т.е доступно.
    Понятно, что все другие проверки формата agent не работают, но все равно Zabbix считает что на узле доступен агент.

    Если нужно просто подождать то сколько? и где это регулируется? ожидание 10 минут ничего не дало.
    Пришел алерт "Problem name: Zabbix server: More than 100 items having missing data for more than 10 minutes" что логично. только узел остается "с доступным агентом"
  • teddy
    Senior Member
    • Dec 2017
    • 234

    #2
    Click image for larger version

Name:	image.png
Views:	286
Size:	9.9 KB
ID:	450214

    наглядно видно что агент уже 20 мин недоступен но функция продолжает отвечать что все ок.

    Comment

    • Hamardaban
      Senior Member
      Zabbix Certified SpecialistZabbix Certified Professional
      • May 2019
      • 2713

      #3
      А в логах проскакиевает что агент доступен\недоступен?
      работает вот этот механизм
      https://www.zabbix.com/documentation...unreachability
      Last edited by Hamardaban; 23-08-2022, 15:37.

      Comment

      • teddy
        Senior Member
        • Dec 2017
        • 234

        #4

        в логах ничего нет. Я нашел все запросы в очереди!!
        похоже что не хватает пуллеров обработки недоступности хоста ( если я парвильно понял алгоритм работы ). увеличил параметры и наблюдаю

        Comment

        • teddy
          Senior Member
          • Dec 2017
          • 234

          #5
          195814:20220823:135859.050 SNMP agent item "SensorDewPointError" on host "Temperature Sensor R2" failed: first network error, wait for 15 seconds
          195819:20220823:135943.189 Zabbix agent item "service.info["LanmanServer",state]" on host "HOSTNAME" failed: first network error, wait for 15 seconds

          Теперь ошибки в логах есть. Очередь также растет.
          статус не меняется.
          Click image for larger version

Name:	image.png
Views:	316
Size:	5.6 KB
ID:	450233

          Comment

          • teddy
            Senior Member
            • Dec 2017
            • 234

            #6
            Все, отбой.
            Увеличение количества пуллеров проблему решило. спасибо что натолкнули на мысль посмотреть очереди.

            Правда время реакции на пропадание\возобновление связи какое то странно-грустное - по айтему 3 минуты - в реальности минут 8-10.
            По вашей схеме время реакции на пропадание - Timeout + UnreacableDelay и айтем становится недоступным. Ну и 3 минуты пока сработает триггер.( сам айтем отрабатывает каждую минуту). Т.е должно быть в пределах 5 минут при Timeout=25s и UnreacableDelay=15. А реально до 10 минут.
            Время реакции при включении UnavailableDelay + 3 минуты пока сработает триггер. т.е 60s + 3min. Реально наблюдал до 10 минут.

            Это в принципе терпимо, если только это время не начнет сильно расти при увеличении нагрузки ( сейчас тестовый вариант, боевой еще на 5-ке крутится)

            Попробую собрать статистику чтоб увидеть усредненную реакцию.
            Да это все по агенту на Windows. На Linux еще даже не вникал.

            Comment


            • Hamardaban
              Hamardaban commented
              Editing a comment
              а зачем вы так чекуете доступность? есть ключ agent.ping + триггер на него. срабатывает быстрее и проще..
              да и icmp иногда еще проще.
              и про агент_v2 .... конечно это "будущее", но пока несколько кривоватое и с нюансами. оно вам надо? :-)
          • teddy
            Senior Member
            • Dec 2017
            • 234

            #7
            Доступность выставляется новым механизмом. Если он работает криво - то забивается очередь. И дело не в агенте или агент2. Это проблема на стороне сервера, агент не отвечает а серверу наплевать на это.
            agent.ping покажет что недоступен агент на хосте в триггере, прилетит сообщение, но при этом сейчас сервер будет считать хост-агента доступным и дальше и накапливать очередь с новыми запросами. при хорошем количестве хостов - очереди нужна память.т.е ресусрсы сервера.ну и в дашбордах такой хост светится доступным, не бросается в глаза.
            Да, для автоматизации можно задействовать аgent.ping и сработку на отсутствие данных по айтему. ICMP вообще не в тему т.к мы говорим о недоступности агента а не хоста в целом. При отсутствии связи с агентом перестает работать огромное количество метрик и это событие надо отлавливать и обрабатывать.

            кроме того если механизм работает не корректно - мало ли где еще оно вылезет?

            Comment

            • teddy
              Senior Member
              • Dec 2017
              • 234

              #8
              тыкс. Похоже все ваши схемы - не имеют отношения к делу: Реальное выключение Агента 15:21 и первое событие в логе сразу. А вот второе - через 50 с лишним минут.

              195839:20220823:152149.129 Zabbix agent item "service.info["mfemms",state]" on host "HOSTNAME" failed: first network error, wait for 15 seconds
              ....
              195841:20220823:161103.659 temporarily disabling Zabbix agent checks on host "HISTNAME": interface unavailable

              Разница между событиями без малого час! ни один параметр из тех что влияют на данное событие не менялся.
              Может быть что то обрабатывает внутри эти события раз в час?

              Comment

              • Hamardaban
                Senior Member
                Zabbix Certified SpecialistZabbix Certified Professional
                • May 2019
                • 2713

                #9
                Ок. Удачи в самостоятельном освоении инструмента.

                Comment

                Working...