Ad Widget

Collapse

Нестабильная работа Zabbix Server

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Steel_Rat
    Junior Member
    • Oct 2011
    • 20

    #1

    Нестабильная работа Zabbix Server

    Доброго времени суток!
    Последнее время стал "пошаливать" заббикс-сервер. Выражается подобное в неизвестно откуда появляющихся проблемах с получением данных от мониторящихся хостов по абсолютно всем итемсам. Т.е. заббикс-сервер пытается опросить агенты, не получает данных, ставит задачу в очередь, причем в очередь >10 минут ожидания. Отсюда возникают сработки по триггерам, в том числе и по доступности:

    Code:
    {TEMPLATE:agent.ping.nodata(180)}=1
    Характеристики развернутой системы:

    Конфигурация заббикс-сервера:
    http://pastebin.com/2BWc7M4m

    Если у кого есть какие-нибудь предположения/соображения и пр., то просьба поделиться ими.
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    При этом Zabbix сервер не падает?
    База данных доступна?
    Проблема может быть в недостаточной производительности базы данных.
    Не указали версию Zabbix server.
    Last edited by dima_dm; 19-12-2011, 09:12.

    Comment

    • Steel_Rat
      Junior Member
      • Oct 2011
      • 20

      #3
      Заббикс-сервер не падает.
      База доступна (MySQL, в формате InnoDB). Конфиг

      # zabbix_server -V
      Zabbix Server v1.8.9 (revision 23398) (22 November 2011)
      Compilation time: Dec 4 2011 19:14:17
      До этого был собран 1.8.3 и наблюдалась аналогичная ситуация.

      Comment

      • dima_dm
        Senior Member
        • Dec 2009
        • 2697

        #4
        zabbix_get агенты проверяли, в момент проблемы с них можно получить данные?
        Используется проверки zabbix_agent активные или пассивные?
        Задержки в получении данных не превышают Timeout-ы для zabbix_agent и zabbix_server?

        /etc/zabbix/zabbix_agentd.conf
        Timeout=30
        /etc/zabbix/zabbix_server.conf
        Code:
        ### Option: Timeout
        #       Specifies how long we wait for agent, SNMP device or external check (in seconds).
        #
        # Mandatory: no
        # Range: 1-30
        # Default:
        Timeout=30

        Comment

        • Steel_Rat
          Junior Member
          • Oct 2011
          • 20

          #5
          Агенты не проверял. Возьму на заметку отследить возможность приёма данных.
          Спасибо.
          Last edited by Steel_Rat; 19-12-2011, 09:35.

          Comment

          • Steel_Rat
            Junior Member
            • Oct 2011
            • 20

            #6
            Добрый день!
            zabbix_get значения с серверов по итемсам успешно снимает во время фэйлов.
            В шаблонах же все итемсы имеют тип "Zabbix агент", что, насколько я понимаю, означает пассивный способ опроса.

            Comment

            • dima_dm
              Senior Member
              • Dec 2009
              • 2697

              #7
              Originally posted by Steel_Rat
              Добрый день!
              zabbix_get значения с серверов по итемсам успешно снимает во время фэйлов.
              В шаблонах же все итемсы имеют тип "Zabbix агент", что, насколько я понимаю, означает пассивный способ опроса.
              Правильно понимаете. zabbix_get снимает данные аналогично "Zabbix агент" пассивный, т.е. проверка корректная.
              Очередь – это виртуальное отображение, которое показывает на сколько просрочен интервал обновления Items.
              Если есть очередь Администрирование-> Очередь, нужно увеличивать количество Pollers.
              Пример:
              /etc/zabbix/zabbix_server.conf
              StartPollers
              Last edited by dima_dm; 23-12-2011, 08:29.

              Comment

              • zalex_ua
                Senior Member
                Zabbix Certified Trainer
                Zabbix Certified SpecialistZabbix Certified Professional
                • Oct 2009
                • 1286

                #8
                Originally posted by dima_dm
                Если есть очередь Администрирование-> Очередь, нужно увеличивать количество Pollers.
                А я бы порекомендовал сначала почитать вот это

                Comment

                • Steel_Rat
                  Junior Member
                  • Oct 2011
                  • 20

                  #9
                  События не заставляют ждать.
                  Число пулеров было увеличено с 5 до 30-ти.
                  Число unreachable poller осталось равным 5-ти.
                  Загрузка пулеров: график

                  Comment

                  • Steel_Rat
                    Junior Member
                    • Oct 2011
                    • 20

                    #10
                    Загрузка unreachable poller: график

                    Comment

                    • Steel_Rat
                      Junior Member
                      • Oct 2011
                      • 20

                      #11
                      Размер очереди: график

                      Comment

                      • dima_dm
                        Senior Member
                        • Dec 2009
                        • 2697

                        #12
                        Посмотрите на свой график Загрузка unreachable poller, у вас хосты становятся недоступными, либо Вы Timeout очень маленький поставили.
                        У меня тоже стоит
                        StartPollersUnreachable=5
                        Но загрузка Unreachable пуллеров около нуля и не поднимается выше 2%.
                        Если хосты становтся недоступны, не удивительно, что растёт очередь.
                        Ещё раз повторю, Очередь – это виртуальное отображение, которое показывает на сколько просрочен интервал обновления Items.
                        Т.е. число Item, для которых вовремя (по интервалу обновления) не пришли новые данные.
                        Last edited by dima_dm; 27-12-2011, 15:21. Reason: добавил про Очередь

                        Comment

                        • Steel_Rat
                          Junior Member
                          • Oct 2011
                          • 20

                          #13
                          Code:
                          ### Option: UnreachablePeriod
                          #	After how many seconds of unreachability treat a host as unavailable.
                          #
                          # Mandatory: no
                          # Range: 1-3600
                          # Default:
                          UnreachablePeriod=180
                          
                          ### Option: UnavailableDelay
                          #	How often host is checked for availability during the unavailability period, in seconds.
                          #
                          # Mandatory: no
                          # Range: 1-3600
                          # Default:
                          UnavailableDelay=180
                          
                          ### Option: UnreachableDelay
                          #	How often host is checked for availability during the unreachability period, in seconds.
                          #
                          # Mandatory: no
                          # Range: 1-3600
                          # Default:
                          # UnreachableDelay=15
                          Какие значения посоветуете выставить?

                          Comment

                          • dima_dm
                            Senior Member
                            • Dec 2009
                            • 2697

                            #14
                            Originally posted by Steel_Rat
                            Какие значения посоветуете выставить?
                            Я говорил про Timeout

                            А если хосты периодически недоступны (либо очень большие задержки), то устранять причину этой недоступности.
                            А приведенные вами Timeout, позволяют оптимизировать работу unreachable poller, но не решают проблему с очередью.

                            Comment

                            • Steel_Rat
                              Junior Member
                              • Oct 2011
                              • 20

                              #15
                              Но судя по комментариям в конфиге, максимальное значение timeout ограничено как раз таки 30 секундами, что выставлено и так.

                              Comment

                              Working...