Ad Widget

Collapse

Выключение одного из DC провоцирует ошибки о недоступности агента

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Kolmik
    Member
    • Jul 2024
    • 56

    #1

    Выключение одного из DC провоцирует ошибки о недоступности агента

    Было 2 домен-контроллера - 172.22.0.21 и 172.22.0.22
    Когда 172.22.0.22 отключаем - сыпятся ошибки вида Zabbix agent on имя_хоста.имя_домена is unreachable for 2 minutes, растут очереди, триггеры появляются, потом исчезают, при этому данные по этому хосту собираются.
    Не можем понять связь отключения одного из DC с появлением подобных триггеров.
    В resolv.conf - 1 адрес 172.22.0.21


    Как только включаем второй DC - сразу все ошибки пропадают, очереди снижаются. В какую сторону смотреть?
    Last edited by Kolmik; 12-08-2024, 11:46.
  • Kos
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Aug 2015
    • 3404

    #2
    Я бы в первую очередь проверил корректность работы службы DNS на обоих серверах. Посмотрел бы утилитами *nslookup* или *dig*, что именно возвращает 172.22.0.21, указанный в качестве DNS-сервера на сервере Zabbix, в случае, когда второй домен-контроллер работает и когда он выключен.

    Comment

    • Kolmik
      Member
      • Jul 2024
      • 56

      #3
      4 дня было всё хорошо и проблема повторилась. DNS отдаёт корректные значения.
      По наблюдениям пострадали только виндовые машины с темплейтом 4 дня назад в темплейте поменяли item Agent ping​ значение Type с Zabbix Agent на Zabbix Agent (active) и вроде бы проблема ушла, хотя может быть просто совпадение.

      А сегодня никаких работ не проводили, никаких изменений и посыпались ошибки, то есть ранее дело скорее всего было вовсе не в темплейте.
      Перезагрузка проксей, на которых были тачки не дала никакого эффекта. После этого был остановлен сам zabbix-server и произошло переключение на второй сервер в ноде. И о чудо, ошибки перестали сыпаться.

      В логах сервера присутствует много вот таких ошибки по разным хостам:
      255956:20240816:140646.460 item "rco-srv-12.testdomen.local:agent.ping" became not supported: Unsupported item key.
      255965:20240816:140916.749 item "rco-srv-12.testdomen.local:agent.ping" became supported​​​

      Comment

      • Kos
        Senior Member
        Zabbix Certified SpecialistZabbix Certified Professional
        • Aug 2015
        • 3404

        #4
        Originally posted by Kolmik
        В логах сервера присутствует много вот таких ошибки по разным хостам:
        255956:20240816:140646.460 item "rco-srv-12.testdomen.local:agent.ping" became not supported: Unsupported item key.
        255965:20240816:140916.749 item "rco-srv-12.testdomen.local:agent.ping" became supported​​
        Насколько я понимаю, сервер обращается к хосту rco-srv-12.testdomen.local за метрикой agent.ping, получает ошибку. При повторном обращении через три с половиной минуты получает корректный ответ. Непонятно, из-за чего возникает ошибка.

        Мои предположения - это как-то связано с работой службы DNS (тем более, что вы сами в первом сообщении сказали, что на сервере Zabbix в качестве DNS-сервера указан первый домен-контроллер).
        • для хоста rco-srv-12.testdomen.local в веб-интерфейсе Zabbix что указано в свойствах интерфейса хоста - использовать IP или DNS-имя?
        • на самом хосте - что указано в конфиг-файле агента Zabbix в параметре "Host=" (DNS-имя сервера, его IP-адрес, диапазон адресов, список и т.д.)?
        • что видно в логе агента на хосте rco-srv-12.testdomen.local​ за то же время?
        • какие версии сервера Zabbix и агентов используются?

        Comment

        Working...