Ad Widget

Collapse

proxy zabbix agent unreachable

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • undisSss
    Junior Member
    • Apr 2014
    • 26

    #1

    proxy zabbix agent unreachable

    Установлен сервер заббикса 2.2.2 на centos 6.5 (был переход с 2.0 ubuntu) на виртуалке (гипер-ви 2012). Mysql innodb
    Есть 10 проксей в интрнете с примерно такими же параметрами.
    Периодически (раз в сутки на час или более) все узлы которые находятся за проксями становятся недоступными (zabbix agent unreachable, все сразу). В логах ничего нету. Доступ до прокси есть, на вклюдке администрирование-РМ возраст не растет (5-10 сек).
    В чем может быть проблема
  • undisSss
    Junior Member
    • Apr 2014
    • 26

    #2
    Может быть кто подскажет в какую сторону копать.
    Причем на старом сервере, до обновления (ubuntu 13.04 zabbix 2.0 mysql myisam) такая проблема была тоже.
    Может быть подскажете чем измерить задержку?
    Настроил мониторинг значений для синхронизации на каждом прокси

    echo "SELECT ((SELECT MAX(proxy_history.id) FROM proxy_history)-nextid) FROM ids WHERE field_name='history_lastid';" | mysql -u root -p*********** zabbix | grep -v FROM

    Перед возникновением проблемы эти значения на всех прокси начинают рости
    Last edited by undisSss; 03-06-2014, 10:40.

    Comment

    • A.Soloviev
      Junior Member
      • Feb 2014
      • 27

      #3
      А в логах Zabbix-proxy ничего нет подозрительного?
      У меня периодически отваливаются узлы за прокси, после того как я поставил новый Zabbix сервер на Debian, при этом прокси сервак и узлы остались старые. Версия прокси и сервера 2.2.

      Проверял настройки конфигов - все впорядке, но в логе прокси сервера постоянно спамит запись типа:
      cannot send list of active checks to [<IP Zabbix-proxy>]: host [<имя хоста за прокси>] not found

      Прокси сервер в пассивном режиме.
      Last edited by A.Soloviev; 03-06-2014, 13:37.

      Comment

      • aib
        Senior Member
        • Jan 2014
        • 1615

        #4
        Originally posted by A.Soloviev
        Проверял настройки конфигов - все впорядке, но в логе прокси сервера постоянно спамит запись типа:
        cannot send list of active checks to [<IP Zabbix-proxy>]: host [<имя хоста за прокси>] not found

        Прокси сервер в пассивном режиме.
        Посмотрите ключ ServerActive= в настройках агентов.
        Если там упомянут И сервер, И прокси => агент будет слать данные и на сервер, и на прокси.
        К сожалению, во фронтенде можно настроить мониторинг хоста только через сервер ИЛИ только через прокси.
        Так что один из них и будет спамить, что "Не знаю того хоста, который прислал список активных проверок"
        Sincerely yours,
        Aleksey

        Comment

        • A.Soloviev
          Junior Member
          • Feb 2014
          • 27

          #5
          Originally posted by aib
          Посмотрите ключ ServerActive= в настройках агентов.
          Если там упомянут И сервер, И прокси => агент будет слать данные и на сервер, и на прокси.
          К сожалению, во фронтенде можно настроить мониторинг хоста только через сервер ИЛИ только через прокси.
          Так что один из них и будет спамить, что "Не знаю того хоста, который прислал список активных проверок"
          В ServerActive в zabbix_agentd.win.conf упомянут только IP Zabbix-proxy.

          Comment

          • aib
            Senior Member
            • Jan 2014
            • 1615

            #6
            Для [<имя хоста за прокси>] у вас настроены какие-нибудь проверки типа Zabbix Agent(Active) ?
            Sincerely yours,
            Aleksey

            Comment

            • A.Soloviev
              Junior Member
              • Feb 2014
              • 27

              #7
              У меня вообще странная картина

              Есть 3 узла стоящие за пассивным Zabbix-Proxy - условно назовем их А, В, С.
              Узлы А и С:
              В меню Настройки - Узлы сети они отображаются серыми значками Z (изредка появляются зелеными);
              В Мониторинг - ПАНЕЛЬ практически постоянно висит "unreachable" на всех трех узлах, в основном на В и С;

              Если заглянуть в график Agent ping (Мониторинг - последние данные):
              У узла А почти все время есть пинг, но много потерь (за час много раз связь теряется);
              У узлов В и С - связь появляется ровно раз в час с одним и тем же интервалом, приблизительно на одно и тоже время (2 минуты).

              На узлах В и С в логах спамится строка (на узле А до 27.05 тоже был такой спам, но потом почему то пропал) :
              No active checks on server: host [<Hostname этого узла>] not found

              В логах Zabbix-proxy про узлы В и С спамится строка:
              cannot send list of active checks to [<IP хоста>]: host [<Hostname хоста>] not found. То о чем я упоминал ранее.

              Версия Zabbix агентов у А и В 2.0, у С 2.2.
              Конфиги на всех трёх узлах одинаковые. Все три узла в одной сети.
              Фаерволы на всех узлах выключены.
              Last edited by A.Soloviev; 03-06-2014, 16:55.

              Comment

              • aib
                Senior Member
                • Jan 2014
                • 1615

                #8
                Эти парные соообщения (в логах агента И в логах прокси) говорят о том, что агенты пытаются забрать список активных проверок с прокси.

                И если у вас нет никаких элементов типа ZabbixAgent (active) - То сообщение об отсутствии списка активных проверок будет появляться постоянно.

                Определитесь - нужны ли вам активные проверки?
                Если нужны - поменяйте тип элемента
                Если НЕ нужны - закоментируйте ключ ServerActive= в конфиге агентов и перестартуйте их. Оставьте только Server=, чтобы агенты "пассивно" отвечали на запросы сервера или прокси.

                А по поводу недоступности узлов - "поиграйте" с Таймаутами. На агентах и на сервере поставьте максимальное значение Timeout=30 и перестартуйте.

                Потом проконтролируйте графики поведения сервера и прокси (Zabbix internal busy process) - если нужно, добавьте количество StartPollers= & StartPollersUnreachable=
                Last edited by aib; 03-06-2014, 16:58.
                Sincerely yours,
                Aleksey

                Comment

                • A.Soloviev
                  Junior Member
                  • Feb 2014
                  • 27

                  #9
                  Originally posted by aib
                  Для [<имя хоста за прокси>] у вас настроены какие-нибудь проверки типа Zabbix Agent(Active) ?
                  На всех трех узла таких проверок нету, только Zabbix agent и Простая проверка есть.

                  Comment

                  • A.Soloviev
                    Junior Member
                    • Feb 2014
                    • 27

                    #10
                    Originally posted by aib
                    Эти парные соообщения (в логах агента И в логах прокси) говорят о том, что агенты пытаются забрать список активных проверок с прокси.

                    И если у вас нет никаких элементов типа ZabbixAgent (active) - То сообщение об отсутствии списка активных проверок будет появляться постоянно.

                    Определитесь - нужны ли вам активные проверки?
                    Если нужны - поменяйте тип элемента
                    Если НЕ нужны - закоментируйте ключ ServerActive= в конфиге агентов и перестартуйте их. Оставьте только Server=, чтобы агенты "пассивно" отвечали на запросы сервера или прокси.

                    А по поводу недоступности узлов - "поиграйте" с Таймаутами. На агентах и на сервере поставьте максимальное значение Timeout=30 и перестартуйте.

                    Потом проконтролируйте графики поведения сервера и прокси (Zabbix internal busy process) - если нужно, добавьте количество StartPollers= & StartPollersUnreachable=
                    Закоментирование строки ServerActive помогло (всмысле пропали спамерские строчки, а на улучшение связи это конечно не повлияло)! Спасибо. Сам не додумался, что именно отсутствие проверок типа Zabbix активная, дает такое.
                    На данный момент активных проверок нет, но будут, потом раскомментирую тогда ServerActive.
                    Странно только, что на узле "А" тоже нет активных проверок, а ошибка пропала с 27.05 =)

                    Дальнейшие ваши рекомендации сейчас буду применять.

                    Comment

                    • A.Soloviev
                      Junior Member
                      • Feb 2014
                      • 27

                      #11
                      Originally posted by aib
                      А по поводу недоступности узлов - "поиграйте" с Таймаутами. На агентах и на сервере поставьте максимальное значение Timeout=30 и перестартуйте.

                      Потом проконтролируйте графики поведения сервера и прокси (Zabbix internal busy process) - если нужно, добавьте количество StartPollers= & StartPollersUnreachable=
                      Timeout установил на узлах, прокси и на сервере = 30.

                      StartPollers и StartPollersUnreachable я не понял для чего (даже после прочтения в доке их описание ), но слепо установил оба параметра на сервере и на прокси-сервере по 200 (думаю ну чем больше тем круче ).
                      Как оказалось не зря говорят: не знаешь - не лезь))) При перезапуске прокси - FAILED при остановке.
                      Похожая картина при остановке сервака:
                      /etc/init.d/zabbix-server restart
                      [....] Stopping Zabbix server: zabbix_serverNo process in pidfile '/var/run/zabbix/zabbix_server.pid' found running; none killed.

                      Повторный перезапуск без проблем. Но факт - в вебинтерфесе написано, что сервер недоступен. Верну обратно чтоли)
                      После возвращения этих параметров "по умолчанию" все нормально перезапускается.
                      Такого графика не нашел, нашел похожий: Zabbix busy poller processes.
                      На нем загрузка примерно 6%, после моих экспериментов показатели возросли до 50-60%

                      Итог: изменение параметра Timeoute - непомогло. По-прежнему узел "А" работает гораздо стабильнее, хотя видимых отличий от других узлов я не вижу.

                      P.S. С узлами которые работают без прокси - проблем нет!
                      Last edited by A.Soloviev; 03-06-2014, 17:52.

                      Comment

                      • undisSss
                        Junior Member
                        • Apr 2014
                        • 26

                        #12
                        В логах сервера и проксей никаких подозрительных записей нет:

                        Proxy:

                        HTML Code:
                          1576:20140603:033333.774 executing housekeeper
                          1576:20140603:033334.023 housekeeper [deleted 8078 records in 0.248541 sec, idle 3599 sec]
                          1560:20140603:033552.627 Received configuration data from server. Datalen 68703
                          1560:20140603:034555.214 Received configuration data from server. Datalen 68703
                          1560:20140603:035557.776 Received configuration data from server. Datalen 68703
                          1560:20140603:040600.337 Received configuration data from server. Datalen 68703
                          1560:20140603:041602.860 Received configuration data from server. Datalen 68703
                          1560:20140603:042605.435 Received configuration data from server. Datalen 68703
                          1576:20140603:043333.029 executing housekeeper
                          1576:20140603:043333.155 housekeeper [deleted 8043 records in 0.126420 sec, idle 3600 sec]
                          1560:20140603:043608.007 Received configuration data from server. Datalen 68703
                          1560:20140603:044610.578 Received configuration data from server. Datalen 68703
                          1560:20140603:045613.141 Received configuration data from server. Datalen 68703
                          1560:20140603:050615.695 Received configuration data from server. Datalen 68703
                          1560:20140603:051618.256 Received configuration data from server. Datalen 68703
                          1560:20140603:052620.809 Received configuration data from server. Datalen 68703
                          1576:20140603:053333.159 executing housekeeper
                          1576:20140603:053333.277 housekeeper [deleted 8106 records in 0.117670 sec, idle 3600 sec]
                          1560:20140603:053623.372 Received configuration data from server. Datalen 68703
                          1560:20140603:054625.940 Received configuration data from server. Datalen 68703
                          1560:20140603:055628.500 Received configuration data from server. Datalen 68703
                          1560:20140603:060631.079 Received configuration data from server. Datalen 68703
                          1560:20140603:061633.641 Received configuration data from server. Datalen 68703
                          1560:20140603:062636.183 Received configuration data from server. Datalen 68703
                          1576:20140603:063333.281 executing housekeeper
                          1576:20140603:063333.426 housekeeper [deleted 8043 records in 0.144296 sec, idle 3600 sec]
                          1560:20140603:063638.745 Received configuration data from server. Datalen 68703
                          1560:20140603:064641.294 Received configuration data from server. Datalen 68703
                          1560:20140603:065643.900 Received configuration data from server. Datalen 68703
                          1560:20140603:070646.451 Received configuration data from server. Datalen 68703
                          1560:20140603:071649.006 Received configuration data from server. Datalen 68703
                          1560:20140603:072651.569 Received configuration data from server. Datalen 68703
                          1576:20140603:073333.427 executing housekeeper
                          1576:20140603:073333.746 housekeeper [deleted 8104 records in 0.318060 sec, idle 3600 sec]
                        И на сервере в том же духе.

                        Вот еще непонятны для меня график, так нигде не смог найти понятного описания что такое busy timer process

                        Comment

                        • A.Soloviev
                          Junior Member
                          • Feb 2014
                          • 27

                          #13
                          В следствии того, что у меня не доступны узлы за прокси (или наоборот ), вылетает триггер элемента данных Zabbix [queue,10m]:
                          More than 100 items having missing data for more than 10 minutes

                          Если посмотреть график Zabbix queue over 10m, то видна логическая связь с доступностью узлов. Раз в час (когда узлы становятся доступны на 2 минуты) шкала графика падает до 20, все остальное время (1 час) шкала графика держится выше 100 (примерно 120).

                          В Администрирование - Очередь (выбрал Обзор по прокси)
                          висит 108 элементов данных ожидающих обновления более 10 минут!!!
                          Явно что то с прокси сервером

                          Увеличил StartPollers= & StartPollersUnreachable= на прокси и на сервере, после перезапуска на Proxy появились записи unreachable poller:

                          14577:20140604:125712.884 proxy #1 started [poller #1]
                          14611:20140604:125712.886 housekeeper [deleted 1585 records in 0.406650 sec, idle 3600 sec]
                          14579:20140604:125712.900 proxy #3 started [poller #3]
                          14584:20140604:125712.910 proxy #8 started [poller #8]
                          14580:20140604:125712.875 proxy #4 started [poller #4]
                          14586:20140604:125712.913 proxy #10 started [poller #10]
                          14582:20140604:125712.917 proxy #6 started [poller #6]
                          14587:20140604:125712.917 proxy #11 started [poller #11]
                          14588:20140604:125712.919 proxy #12 started [poller #12]
                          14581:20140604:125712.921 proxy #5 started [poller #5]
                          14585:20140604:125712.922 proxy #9 started [poller #9]
                          14592:20140604:125712.930 proxy #16 started [unreachable poller #2]
                          14594:20140604:125712.932 proxy #18 started [unreachable poller #4]
                          14590:20140604:125712.934 proxy #14 started [poller #14]
                          14591:20140604:125712.940 proxy #15 started [unreachable poller #1]
                          14583:20140604:125712.940 proxy #7 started [poller #7]
                          14578:20140604:125712.905 proxy #2 started [poller #2]
                          14599:20140604:125712.942 proxy #23 started [unreachable poller #9]
                          14601:20140604:125712.948 proxy #25 started [unreachable poller #11]
                          14593:20140604:125712.950 proxy #17 started [unreachable poller #3]
                          14595:20140604:125712.951 proxy #19 started [unreachable poller #5]
                          14589:20140604:125712.952 proxy #13 started [poller #13]
                          14603:20140604:125712.956 proxy #27 started [unreachable poller #13]
                          14597:20140604:125712.954 proxy #21 started [unreachable poller #7]
                          14596:20140604:125712.963 proxy #20 started [unreachable poller #6]
                          14598:20140604:125712.966 proxy #22 started [unreachable poller #8]
                          14600:20140604:125712.967 proxy #24 started [unreachable poller #10]
                          14602:20140604:125712.968 proxy #26 started [unreachable poller #12]
                          14613:20140604:125712.969 proxy #37 started [discoverer #1]
                          14604:20140604:125712.970 proxy #28 started [unreachable poller #14]
                          Last edited by A.Soloviev; 04-06-2014, 11:40.

                          Comment

                          • aib
                            Senior Member
                            • Jan 2014
                            • 1615

                            #14


                            timer - process for evaluation of time-related trigger functions and maintenances
                            Sincerely yours,
                            Aleksey

                            Comment

                            • undisSss
                              Junior Member
                              • Apr 2014
                              • 26

                              #15
                              timer - процесс для обработки функций триггеров, связанных со временем, и для обслуживания

                              это я уже находил, но толком понять что это такое и как исправить такую большую загрузку не могу

                              Comment

                              Working...