Всем привет.
Ситуация следующая:
Имеем сервер 3.4. Имеем две разнесенные площадки, каждую обслуживает свой прокси (подсети разные). На каждой площадке несколько десятков однотипного оборудования.
Оборудование каждой площадки находится в собственной группе хостов.
Есть общий шаблон. В нем две простых проверки - первая доступность хоста по icmpping, вторая доступность сервиса на порту по net.tcp.service. Там же триггер - при недоступности хоста или сервиса в течении 3 мин, срабатывает.
Есть Action - в случае соблюдения трех условий, а именно: срабатываение триггера, принадлежность к группе хостов и отсутствие в maintance, запускается удаленная команда. Конкретно на аппаратную перезагрузку хоста, но это не важно.
Все это отлично работало. И вот вчера мне по необходимости надо было перевезти хосты с одной площадки на другую.
Отключил action, отключил оповещения, чтобы не орали. Выключил хосты, перевез.
Далее:
- убрал хосты из списка одного прокси
- перепрописал ipишники на хостах
- включил в список другого прокси
- исправил action (команда теперь запускается на другом прокси естесственно)
- все включил
Данные стали поступать и.... начался цирк с конями. Триггер из шаблона начал массово отрабатываться на всех хостах. Причин для его срабатывания нет,
все доступно. Отработает и сразу заканчивается, через 30 сек (время опроса хостов) снова. Отключил action. Триггер срабатывает.
Что пробовал сделать:
- полностью переписал шаблон, старый отвязал с очисткой. Не помогло.
- отключил старую проксю. Не помогло.
- обновил версии сервера, проксей и агентов до 3.4.15 (было сервер 3.4.4, прокси 3.4.7 и 3.4.6). Не помогло.
- сервисы проксей и сервера перезапускал. Не помогло.
- изменил триггер в шаблоне. Вместо 3 минут поставил 4 минуты. И помогло.
Слегка озадаченный, но в целом довольный лег спать в 5 утра. Просыпаюсь с утра, смотрю, а там все таже пляска.
Лезу отключать action и с удивлением наблюдаю, что пропало одно условие, а именно триггер. Само, блин, пропало.
Удалил полностью action и написал новый. Три часа - полет нормальный.
Да, еще полность перезагрузил сервер.
У что это было? Как думаете?
Сервак на centOS, прокси на OpenSuse, хосты на Armbian.
Ситуация следующая:
Имеем сервер 3.4. Имеем две разнесенные площадки, каждую обслуживает свой прокси (подсети разные). На каждой площадке несколько десятков однотипного оборудования.
Оборудование каждой площадки находится в собственной группе хостов.
Есть общий шаблон. В нем две простых проверки - первая доступность хоста по icmpping, вторая доступность сервиса на порту по net.tcp.service. Там же триггер - при недоступности хоста или сервиса в течении 3 мин, срабатывает.
Есть Action - в случае соблюдения трех условий, а именно: срабатываение триггера, принадлежность к группе хостов и отсутствие в maintance, запускается удаленная команда. Конкретно на аппаратную перезагрузку хоста, но это не важно.
Все это отлично работало. И вот вчера мне по необходимости надо было перевезти хосты с одной площадки на другую.
Отключил action, отключил оповещения, чтобы не орали. Выключил хосты, перевез.
Далее:
- убрал хосты из списка одного прокси
- перепрописал ipишники на хостах
- включил в список другого прокси
- исправил action (команда теперь запускается на другом прокси естесственно)
- все включил
Данные стали поступать и.... начался цирк с конями. Триггер из шаблона начал массово отрабатываться на всех хостах. Причин для его срабатывания нет,
все доступно. Отработает и сразу заканчивается, через 30 сек (время опроса хостов) снова. Отключил action. Триггер срабатывает.
Что пробовал сделать:
- полностью переписал шаблон, старый отвязал с очисткой. Не помогло.
- отключил старую проксю. Не помогло.
- обновил версии сервера, проксей и агентов до 3.4.15 (было сервер 3.4.4, прокси 3.4.7 и 3.4.6). Не помогло.
- сервисы проксей и сервера перезапускал. Не помогло.
- изменил триггер в шаблоне. Вместо 3 минут поставил 4 минуты. И помогло.
Слегка озадаченный, но в целом довольный лег спать в 5 утра. Просыпаюсь с утра, смотрю, а там все таже пляска.
Лезу отключать action и с удивлением наблюдаю, что пропало одно условие, а именно триггер. Само, блин, пропало.
Удалил полностью action и написал новый. Три часа - полет нормальный.
Да, еще полность перезагрузил сервер.
У что это было? Как думаете?
Сервак на centOS, прокси на OpenSuse, хосты на Armbian.
Вобщем да, где то залип этот триггер в процессе переноса. Решилось полным отключением триггера в шаблоне и привязка экшена к другому триггеру в этом же шаблоне.
Comment