Ad Widget

Collapse

Заббикс флудит сообщениями о недоступно&

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • blind_oracle
    Junior Member
    • Feb 2009
    • 23

    #1

    Заббикс флудит сообщениями о недоступно&

    Уже пару раз такое было, есть хост (Cisco ASA 5505), с него собираются всякие плюшки по SNMP и есть триггер, срабатывающий по icmpping<0.

    В основном всё хорошо, но вот уже два раза подряд было так, что заббикс начинает флудить сообщениями типа "PROBLEM: Host <host> is down", вот вчера он за 8 минут прислал 148 одинаковых сообщений. Затем сам успокоился. При этом в то время как он шлёт эту хренотень, хост на ура пингуется.

    Собсно, что это было? Пока это происходит только с одним хостом (было 2 случая), но на этом шаблоне висит еще десяток и пока без проблем.

    Zabbix 1.8.1 (последний в репозитории убунты сервер 10)
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    Проблема в том, что у вас есть потери пакетов, и кратковременно Ping не проходит.
    Решение
    {Template_Linux:agent.ping.min(#5)}=0
    Т.е. триггер срабатывает, если agent.ping не проходит 5 раз подряд. Это избавит вас от ложных срабатываний при кратковременных проблемах на сети.

    Если хост не пингуется 90 секунд
    {Catalyst:icmpping.max(90)}=0
    Ping не проходит 5 раз подряд
    {Catalyst:icmpping.max(#5)}=0
    Last edited by dima_dm; 09-07-2010, 08:36.

    Comment

    • blind_oracle
      Junior Member
      • Feb 2009
      • 23

      #3
      Спасибо, буду подкручивать темплейты! Т.е. я так понимаю, что каждый сработавший экшен - это не пришедший обратно icmp?

      Comment

      • dima_dm
        Senior Member
        • Dec 2009
        • 2697

        #4
        Originally posted by blind_oracle
        Спасибо, буду подкручивать темплейты! Т.е. я так понимаю, что каждый сработавший экшен - это не пришедший обратно icmp?
        При icmpping=0, да. Реализуется через fping
        Usage: /usr/sbin/fping [options] [targets...]
        ...
        -c n count of pings to send to each target (default 1)
        ...
        Last edited by dima_dm; 09-07-2010, 09:04.

        Comment

        • blind_oracle
          Junior Member
          • Feb 2009
          • 23

          #5
          Тогда еще вопрос - почему приходит куча сообщений?
          Упал хост - присылаем problem. Поднялся - присылаем ok. Или я что-то не так понимаю?
          Вот сейчас один хост недоступен и она так и присылает проблемы, и присылает...

          ЗЫ:
          Триггер ему уже заменил на {root.c2960-8p:icmpping.max(90)}=0
          Last edited by blind_oracle; 09-07-2010, 09:54.

          Comment

          • dima_dm
            Senior Member
            • Dec 2009
            • 2697

            #6
            Сообщения приходят по изменениям статуса триггера. Если вам не нужны сообщения о восстановлении (OK), то воспользуйтесь советом, который уже был на этом форуме http://www.zabbix.com/forum/showthread.php?t=17977
            Отключить сообщение о восстановлении. Галка "Отправлять сообщение о восстановлении" не работает
            Добавьте условие в Action
            значение триггера = problem
            Last edited by dima_dm; 09-07-2010, 10:02.

            Comment

            • blind_oracle
              Junior Member
              • Feb 2009
              • 23

              #7
              Да нет, как раз наоборот - я хочу получать сообщения о восстановлении, но в данном случае я их не получаю, в том то и дело. Идут каждые N секунд одинаковые письма "PROBLEM: Host root.c2960-8p is down" и никаких OK. С другими хостами таких проблем вроде бы не было, триггер down - письмо о проблеме, триггер up - письмо о восстановлении. А тут - флуд сплошной

              Comment

              • dima_dm
                Senior Member
                • Dec 2009
                • 2697

                #8
                Так быть не должно. Посмотрите Мониторинг->События есть там Ok в действии, если нет то Zabbix не получает корректных кодов возврата от почтового сервера, и считает что сообщение не отправлено. Отправляет повторно.
                Если есть OK, то сообщения множатся на почтовике (при отправке или приёме), это можно определить по уникальным Message-ID и id в почтовых очередях в поле Received: в MIME заголовке почтовых сообщений.
                Смотрите логи почтового сервера.
                Last edited by dima_dm; 09-07-2010, 10:14.

                Comment

                • blind_oracle
                  Junior Member
                  • Feb 2009
                  • 23

                  #9
                  Да вот что самое странное в Monitoring -> Events у меня вообще пусто: "No events found", фильтров не стоит (Group: all, Host: all, Source: Trigger)... Что бы это значило? База данных бита?

                  А письма почтарём не множатся, вот кусок из его лога:
                  Code:
                  Jul  9 12:11:23 mx2 postfix/smtpd[24647]: DE5082A2316: client=unknown[10.1.0.28]
                  Jul  9 12:11:24 mx2 postfix/smtpd[24647]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:24 mx2 postfix/smtpd[24643]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:25 mx2 postfix/smtpd[24643]: 219422A2316: client=unknown[10.1.0.28]
                  Jul  9 12:11:25 mx2 postfix/smtpd[24643]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:25 mx2 postfix/smtpd[24089]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:26 mx2 postfix/smtpd[24089]: 3C0812A232D: client=unknown[10.1.0.28]
                  Jul  9 12:11:26 mx2 postfix/smtpd[24089]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:26 mx2 postfix/smtpd[24647]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:27 mx2 postfix/smtpd[24647]: 54F8F2B2397: client=unknown[10.1.0.28]
                  Jul  9 12:11:27 mx2 postfix/smtpd[24647]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:27 mx2 postfix/smtpd[25914]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:28 mx2 postfix/smtpd[25914]: 556E02B2397: client=unknown[10.1.0.28]
                  Jul  9 12:11:28 mx2 postfix/smtpd[25914]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:28 mx2 postfix/smtpd[24224]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:29 mx2 postfix/smtpd[24224]: BCE032B23A2: client=unknown[10.1.0.28]
                  Jul  9 12:11:29 mx2 postfix/smtpd[24224]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:29 mx2 postfix/smtpd[25914]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:31 mx2 postfix/smtpd[25914]: 0C5362B23AB: client=unknown[10.1.0.28]
                  Jul  9 12:11:31 mx2 postfix/smtpd[25914]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:31 mx2 postfix/smtpd[24089]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:32 mx2 postfix/smtpd[24089]: 5B9D92B1825: client=unknown[10.1.0.28]
                  Jul  9 12:11:32 mx2 postfix/smtpd[24089]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:32 mx2 postfix/smtpd[25914]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:33 mx2 postfix/smtpd[25914]: 730AF2B23AE: client=unknown[10.1.0.28]
                  Jul  9 12:11:33 mx2 postfix/smtpd[25914]: disconnect from unknown[10.1.0.28]
                  Jul  9 12:11:33 mx2 postfix/smtpd[24647]: connect from unknown[10.1.0.28]
                  Jul  9 12:11:34 mx2 postfix/smtpd[24647]: 8AD1F2B23AE: client=unknown[10.1.0.28]
                  Jul  9 12:11:34 mx2 postfix/smtpd[24647]: disconnect from unknown[10.1.0.28]
                  Т.е. сервер заббикса (10.1.0.28) действительно отправлял сообщения чуть не раз в секунду...

                  Может попробовать экспортнуть в XML всё и обнулить БД..

                  ЗЫ:
                  Это я туплю, события есть просто он по умолчанию как-то странно их выводит - с текущего момента, хотя их ессесно нету в будущем )

                  Напротив события с этим проблемным триггером стоит "Actions: OK"
                  Last edited by blind_oracle; 09-07-2010, 10:19.

                  Comment

                  • dima_dm
                    Senior Member
                    • Dec 2009
                    • 2697

                    #10
                    На самом деле ваш лог мало о чём говорит.
                    Я бы начал с того, что посмотрел dump и убедился, что SMTP сессия завершается корректно.
                    /usr/sbin/tcpdump -i eth0 -s 0 -X "host 10.1.0.28 and tcp port 25"
                    Last edited by dima_dm; 09-07-2010, 10:24.

                    Comment

                    • blind_oracle
                      Junior Member
                      • Feb 2009
                      • 23

                      #11
                      С точки зрения почтового сервера ошибок нет, сессия завершена корректно.

                      Да и выше я сообщение подправил:

                      "Напротив события с этим проблемным триггером стоит "Actions: OK""

                      Comment

                      • dima_dm
                        Senior Member
                        • Dec 2009
                        • 2697

                        #12
                        Рестартовать Zabbix_server пробовали?

                        Comment

                        • blind_oracle
                          Junior Member
                          • Feb 2009
                          • 23

                          #13
                          Конечно, и демона и весь сервак целиком...

                          Comment

                          • dima_dm
                            Senior Member
                            • Dec 2009
                            • 2697

                            #14
                            Такой проблемы, в живую, я никогда не видел, поэтому и решения не знаю. Могу посоветовать проверить таблицы базы на целостность, посмотреть подозрительные ошибки в логе Zabbix_Server.

                            Comment

                            • blind_oracle
                              Junior Member
                              • Feb 2009
                              • 23

                              #15
                              Собрал из исходников 1.8.2, буду смотреть как пойдут дела, спасибо!

                              Comment

                              Working...