Ad Widget

Collapse

Мониторинг мониторинга...

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Victor Sklyarov
    Senior Member
    • Apr 2016
    • 184

    #1

    Мониторинг мониторинга...

    Коллеги по несчастью, имевшие неосторожность устанавливать агентов 6.0 и выше, поделитесь идеями как решать проблему устойчивости работы агентов. У меня стойкое впечатление, что команда zabbix не понимает глубины и размеров проблемы ZBX-21135, ZBX-21227.
    Агент 2 - это вообще песня, документации о настройках -ноль, при запуске в логах какая-то ахинея, которую никто не может объяснить, устойчивость работы - ниже плинтуса. Просто пришлось переустановить полностью.
    Но и первый агент не подарок.
    1. агент не запускается и падает когда есть проблемы со счётчиками производительности. Достаточно включить дебаг 5 и увидите, чем агент занимается, типа гуся дёргает. Кому нужны эти счётчики на workstation?
    2. агент просто падает с завидной частотой примерно 15-20 падений на 1000 узлов в день. Это просто катастрофа, когда имеешь на мониторинге несколько тысяч узлов. Что с этим делать? Наверно можно по триггеру запускать некую процедуру типа sc \\crashed_server start "zabbix agent". Но вот беда, zabbix server - это linux. Он таких команд не знает. Знает net rpc ... Но чего-то вменяемого из этой команды получить не могу. Мало того, чтобы толком воспользоваться этим, нужно открыть порты 135, 139, 445, что для служб безопасности как красная тряпка для быка. Магическая фраза Agent stopped всегда совпадает с некоей уникальной процедурой, связанной, опять же, с опросом счётчиков производительности. Возможно опрос счётчиков является вторичным по отношению к поведению Windows.
    3. агент не стартует если произошло аварийное выключение узла. Как только в логе появляется, что система после старта восстановлена после ошибки, получаем запись - служба не ответила в течении 30000 (или 45000) мс.

    В общем, когда для системы мониторинга приходится разворачивать систему контроля её работы, а потом контроль контроля и так далее - это уже не мониторинг, а какой-то балаган. Стремление разработчиков наворачивать новую функциональность похвально, но если не работает основа, толку от заоблачной функциональности?
  • vladimir_lv
    Senior Member
    • May 2022
    • 240

    #2
    Насколько я вижу, команда Zabbix подтвердила наличие обеих ваших проблем и занимается их устранением. Отсутствие волшебства в этой жизни слегка ограничивает возможности немедленного фикса.

    Comment

    • wins
      Senior Member
      • Sep 2014
      • 307

      #3
      ну а вариант сдаунгрейдить агентов до стабильной версии?

      Comment

      • Victor Sklyarov
        Senior Member
        • Apr 2016
        • 184

        #4
        Возможно это и лучший вариант, только нужно понять в какой версии агенты ещё не занимались проверкой счётчиков производительности в свободное от "работы" время. Боюсь, не встанет ли следом вопрос даунгрейда сервера, если так решать проблемы. Где гарантия, что в старых агентах всё работает идеально? Начал собирать статистику падений. Новый баг. На WIN XP агент при старте системы не запускается вообще, хотя вручную, на рабочей системе запускается без проблем. И это не на одном узле, на всех, что перезагружаются в процессе работы.

        Comment

        • Victor Sklyarov
          Senior Member
          • Apr 2016
          • 184

          #5
          Не понимаю, как сообщество работает с мониторингом через агентов. Агент 6.0.х абсолютно неработоспособен. Установлено 9500 агентов. Статистика падений - за 19 дней упало 750 агентов. По 40 узлов в день отваливается. Кто-то может сказать, какая версия стабильна? 2, 3, 4, 5? В какой версии агент не занимается опросом счётчиков производительности без прямых указаний с сервера и не падает от их неработоспособности?
          Last edited by Victor Sklyarov; 17-08-2022, 09:55.

          Comment


          • Hamardaban
            Hamardaban commented
            Editing a comment
            на 1000 агентов версии 6,2 за месяц ни одного падения.
            до этого 6,0 - тоже всё нормально.
            ваша проблема в снятии определенных счетчиков windows - так найдите обходное решение или используйте другой инструмент или ждите пока разработчики починят.
            ну чего нагнетать то? :-)
            Last edited by Hamardaban; 17-08-2022, 10:16.
        • Victor Sklyarov
          Senior Member
          • Apr 2016
          • 184

          #6
          Не снимаю я никаких счётчиков. Падения не связаны с опросом. Падения связаны с событиями в widows https://support.zabbix.com/browse/ZBX-21227. Количество версий win огромно, поскольку нет возможности их обновлять. От XP и 2003 до win10 всех модификаций и 2016. Ваши советы использовать другой инструмент - некорректны, не стоит вообще отвечать в таком тоне.

          Comment


          • Hamardaban
            Hamardaban commented
            Editing a comment
            Отвечу в томже стиле: не нужно указывать другим отвечать или нет на ОБЩЕСТВЕННОМ форуме.
            У меня лично ваши постоянные "недовольства" системой вызывают желание посоветовать вам использовать что-то иное, а не систему которую вы используете бесплатно. Вот и посоветовал. А если Вы платите за поддержку - так и нойте там.
            И как говорится: "я не червонец чтобы нравиться всем" могу и послать если посчитаю нужным и не нарушу правила общения на форуме.
            Специально пишу коментами чтоб этот мусор не болтался в ленте. Давайте успокоимся и не будем продолжать.
        • Victor Sklyarov
          Senior Member
          • Apr 2016
          • 184

          #7
          Вот и закончилось четырёхмесячное выяснение причин падения агента. Причина как всегда банальна. Имя узла определялось через параметр HostnameItem=system.run["c:\zabbix\script\ip.bat"] Батник выполняет команду IPCONFIG и парсит собственный адрес узла. Оказывается нельзя использовать в hostnameitem запросы к сетевым ресурсам. Абсолютно все версии WIN страдают кратковременным переходом в спящий режим (примерно 7с), даже если это запрещено в настройках. В логе win появляется сообщение о переходе в спящий режим, далее останавливается сервис DHCP. В этот момент происходит падение агента. Через 7 сек появляется сообщение о возвращении в нормальный режим работы, через 30 - сообщение о том, что агент не ответил. Разработчики развели руками и сообщили, что они бессильны. Проблема подтверждена на 10000 узлах.

          Comment

          Working...