Суть в следующем. Есть у меня проверки доступности веб-сайтов, которые запускаются через автообнаружение. Т.е. есть некий скрипт на агенте, который пинается с ключём dicovery и выдаёт JSON список вебсайтов и их IP. Проверка осуществляется также скриптом, который запускается агентом и для работы которого в ключе задано два важных параметра IP адрес и имя сайта. Всё работало как часы не один месяц и вдруг вчера случился капец.
Два сайта (а их 7 штук) перестали отвечать (сервер сдох где они были как потом выяснилось), но получилось так, что как только этом случилось, Заббикс стал мне слать сообщения о том, что и с остальными сайтами проблема (нет данных). Я включил логгирование и увидел странную картину - из 7-ми сайтов, которые должны были проверяться, регулярно вызывалось только 3 проверки! Остальные просто молча игнорировались, как будто их и нет тут. Далее я перезапустил заббикс-сервер и тогда (о чудо) итерация получения данных прошла по всем прописанным серверам. Вот только через несколько минут всё повторилось снова - проверки перестали запускаться! Вручную проверил всё - сайты работали (кроме тех двух).
И всё это продолжалось до тех пор, пока те две записи, которые касались умершего сервера не заработали! Как только заработали они, сразу проблем нигде не стало. Вопрос - что это было? Логи агента и сервера смотрел - ничего.
Два сайта (а их 7 штук) перестали отвечать (сервер сдох где они были как потом выяснилось), но получилось так, что как только этом случилось, Заббикс стал мне слать сообщения о том, что и с остальными сайтами проблема (нет данных). Я включил логгирование и увидел странную картину - из 7-ми сайтов, которые должны были проверяться, регулярно вызывалось только 3 проверки! Остальные просто молча игнорировались, как будто их и нет тут. Далее я перезапустил заббикс-сервер и тогда (о чудо) итерация получения данных прошла по всем прописанным серверам. Вот только через несколько минут всё повторилось снова - проверки перестали запускаться! Вручную проверил всё - сайты работали (кроме тех двух).
И всё это продолжалось до тех пор, пока те две записи, которые касались умершего сервера не заработали! Как только заработали они, сразу проблем нигде не стало. Вопрос - что это было? Логи агента и сервера смотрел - ничего.
Comment