Ad Widget

Collapse

Вопрос залу - что это было? :)

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Comandante
    Junior Member
    • Jan 2018
    • 12

    #1

    Вопрос залу - что это было? :)

    Всем привет.

    Ситуация следующая:

    Имеем сервер 3.4. Имеем две разнесенные площадки, каждую обслуживает свой прокси (подсети разные). На каждой площадке несколько десятков однотипного оборудования.
    Оборудование каждой площадки находится в собственной группе хостов.

    Есть общий шаблон. В нем две простых проверки - первая доступность хоста по icmpping, вторая доступность сервиса на порту по net.tcp.service. Там же триггер - при недоступности хоста или сервиса в течении 3 мин, срабатывает.

    Есть Action - в случае соблюдения трех условий, а именно: срабатываение триггера, принадлежность к группе хостов и отсутствие в maintance, запускается удаленная команда. Конкретно на аппаратную перезагрузку хоста, но это не важно.

    Все это отлично работало. И вот вчера мне по необходимости надо было перевезти хосты с одной площадки на другую.
    Отключил action, отключил оповещения, чтобы не орали. Выключил хосты, перевез.
    Далее:
    - убрал хосты из списка одного прокси
    - перепрописал ipишники на хостах
    - включил в список другого прокси
    - исправил action (команда теперь запускается на другом прокси естесственно)
    - все включил

    Данные стали поступать и.... начался цирк с конями. Триггер из шаблона начал массово отрабатываться на всех хостах. Причин для его срабатывания нет,
    все доступно. Отработает и сразу заканчивается, через 30 сек (время опроса хостов) снова. Отключил action. Триггер срабатывает.
    Что пробовал сделать:
    - полностью переписал шаблон, старый отвязал с очисткой. Не помогло.
    - отключил старую проксю. Не помогло.
    - обновил версии сервера, проксей и агентов до 3.4.15 (было сервер 3.4.4, прокси 3.4.7 и 3.4.6). Не помогло.
    - сервисы проксей и сервера перезапускал. Не помогло.

    - изменил триггер в шаблоне. Вместо 3 минут поставил 4 минуты. И помогло.

    Слегка озадаченный, но в целом довольный лег спать в 5 утра. Просыпаюсь с утра, смотрю, а там все таже пляска.
    Лезу отключать action и с удивлением наблюдаю, что пропало одно условие, а именно триггер. Само, блин, пропало.

    Удалил полностью action и написал новый. Три часа - полет нормальный.
    Да, еще полность перезагрузил сервер.

    У что это было? Как думаете?

    Сервак на centOS, прокси на OpenSuse, хосты на Armbian.
    Last edited by Comandante; 26-03-2019, 15:05.
  • Comandante
    Junior Member
    • Jan 2018
    • 12

    #2
    День продержался всего. Сейчас опять та же хрень. Отключение action'а сразу остановило шторм триггеров. Включение назад пока шторм не вызвало. Я не пойму, где связь между триггером и действием??

    Ни у кого никаких идей?

    Comment

    • Kos
      Senior Member
      Zabbix Certified SpecialistZabbix Certified Professional
      • Aug 2015
      • 3404

      #3
      Могу предположить, что первый "цирк с конями" может объясняться тем, что конфигурационые данные между Zabbix-сервером и Zabbix-прокси обновляются не мнговенно (по умолчанию - для Active Proxy раз в час). Т.е. после всех ваших перенастроек какое-то время каждый из проксей всё ещё продолжал мониторить старую конфигурацию.

      Что происходит сейчас - сказать трудно, надо смотреть детальнее и пытаться изолировать проблему.
      Во-первых - понять: глючат ли Action-ы (срабатывая без повода) или же триггеры (срабатывая, когда не надо). Например, временно убрать в Action-е удалённую команду, но оставить уведомление по e-mail.
      Во-вторых - если таки срабатывают триггеры, то смотреть их условия и анализировать, почему эти условия могуть вдруг выполниться. Например, если триггеры срабатывают по nodata(), то это может происходить либо из-за несинхронизированного времени между Zabbix-сервером и Zabbix-прокси, либо из-за того, что Zabbix-прокси пересылает данные с задержками.
      Смотреть логи (как на сервере, так и на прокси) - может, там что-либо полезное.
      Как-то так...

      Comment

      • Comandante
        Junior Member
        • Jan 2018
        • 12

        #4
        Возвращаясь к теме. Вобщем да, где то залип этот триггер в процессе переноса. Решилось полным отключением триггера в шаблоне и привязка экшена к другому триггеру в этом же шаблоне.

        Мне так видится, что я не правильно сделал, что отключил все и стал переезжать. Надо было сначала все оборудование вывести из подчинения одной прокси, включить мейнтенс, переехать, ввести в подчинение к дрогой проксе и потом включить. Наука на будущее.

        Comment

        Working...