Ad Widget

Collapse

zabbix перестает собирать данные

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • lexey
    Senior Member
    • Sep 2011
    • 104

    #1

    zabbix перестает собирать данные

    установил zabbix 1.8.7 на debian 5.0 на mysql по руководству с оф. сайта
    Есть проблема, zabbix перестает собирать данные через некоторое время.
    приходиться запускать службы:
    linux:~# /usr/local/sbin/zabbix_agentd
    linux:~# /usr/local/sbin/zabbix_server
    подскажите как можно решить эту проблему, переустанавливать?
    может у кого то была такая проблема???
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    А процесс zabbix_server при этом падает (Т.е. отсутствует в списке активных процессов)?
    Другая возможная причина, проблемы с MySQL базой данных и zabbix_server не может подключиться к MySQL серверу.

    Comment

    • lexey
      Senior Member
      • Sep 2011
      • 104

      #3
      Originally posted by dima_dm
      А процесс zabbix_server при этом падает (Т.е. отсутствует в списке активных процессов)?
      Другая возможная причина, проблемы с MySQL базой данных и zabbix_server не может подключиться к MySQL серверу.
      процесс zabbix_server - отсутствует!
      так что думаете лучше переставить, и какую версию лучше ставить

      Comment

      • dima_dm
        Senior Member
        • Dec 2009
        • 2697

        #4
        Originally posted by lexey
        процесс zabbix_server - отсутствует!
        так что думаете лучше переставить, и какую версию лучше ставить
        У меня тоже переодически zabbix_server падает на разных версиях (где-то чаще, где-то реже), поэтому я написал простой скрип рестарта в root cron
        #Zabbix
        */5 * * * * /root/zabbix.restart >> /var/log/my.log 2>&1

        Code:
        #! /bin/sh
        NUM=`/sbin/pidof -o $$ -o $PPID -o %PPID -x zabbix_agentd|wc -w`
        if [ $NUM -lt 1 ] 
           then
           echo "Data:";date 
           echo "/etc/init.d/zabbix_agentd_ctl stop"   
           /etc/init.d/zabbix_agentd_ctl stop
           sleep 5
           echo "/etc/init.d/zabbix_agentd_ctl start"
           /etc/init.d/zabbix_agentd_ctl start
           echo "zabbix_agentd restart End"
        fi
        NUM=`/sbin/pidof -o $$ -o $PPID -o %PPID -x zabbix_server|wc -w` 
        if [ $NUM -lt 2 ]
           then
           echo "Data:";date
           echo "/etc/init.d/zabbix_server_ctl stop"
           /etc/init.d/zabbix_server_ctl stop
           sleep 5
           killall -9 fping
           echo "/etc/init.d/zabbix_server_ctl start"
           /etc/init.d/zabbix_server_ctl start
           echo "Zabbix Server restarted" |/bin/mail e-mail@your_domain.ru -s "Zabbix Server restarted"
        fi
        Last edited by dima_dm; 22-09-2011, 17:42.

        Comment

        • igoreha311
          Member
          • Sep 2011
          • 99

          #5
          Стоит Zabbix 1.8.4 Appliance.
          Мониторил порядка 60 узлов(добавлены вручную). Настроил ОБНАРУЖЕНИЕ (ICMP, HTTP и SNMP, интервал - час) и умер процесс zabbix_server, при запуске вручную он сразу же падает.
          Подскажите, в какую сторону капать и что делать?
          Заранее спасибо.

          После обнаружения:
          Hosts (m/n/t): 296(236/0/60)
          Items (m/d/n): 25430(25141/289/0)
          Triggers (e/d)[p/u/o]: 7188(1208/5980)[2/1206/0]
          Last edited by igoreha311; 23-09-2011, 10:28.

          Comment

          • dima_dm
            Senior Member
            • Dec 2009
            • 2697

            #6
            Анализировать логи Zabbix_server, смотреть загрузку сервера базы данных Zabbix, целостность таблиц базы данных.

            Comment

            • Zuzuka
              Member
              • Aug 2011
              • 39

              #7
              Originally posted by igoreha311
              при запуске вручную он сразу же падает.
              Подскажите, в какую сторону капать и что делать?
              Начинать "копать" надо с анализа логов zabbix сервера, которые находятся, как описано в "/etc/zabbix/zabbix_server.conf" параметром "LogFile=..."
              На всякий случай, увеличь в этом файле параметр "LogFileSize=..." до значения 16-20.
              И для более детального логирования можно увеличить уровень "DebugLevel=..." до 4-х.

              Comment

              • igoreha311
                Member
                • Sep 2011
                • 99

                #8
                Вот кусочек /var/log/zabbix/zabbix_server.log

                6019:20110923:183249.648 server #18 started [Discoverer. SNMP:YES]
                6008:20110923:183249.836 Evaluation failed for function: nodata
                6008:20110923:183249.837 Expression [{12196}=1] cannot be evaluated: Evaluation failed for function: nodata
                5992:20110923:183254.584 __mem_malloc: skipped 0 asked 32 skip_min 4294967295 skip_max 0
                5992:20110923:183254.584 [file:dbconfig.c,line:1221] zbx_mem_malloc(): out of memory (requested 32 bytes).
                5992:20110923:183254.585 [file:dbconfig.c,line:1221] zbx_mem_malloc(): please increase CacheSize configuration parameter.
                5990:20110923:183254.593 One child process died (PID:5992,exitcode/signal:255). Exiting ...


                В zabbix_server.conf увеличил все параметры с Cache до 256M, начал получать данные и рисовать графики, но всё нестабильно.
                И процесс zabbix_server сильно нагружает процессор - около 95%.


                Возможно я его сильно нагружаю? Как я понимаю, в не хватает ему ресурсов...
                вот ещё




                Попробую снова мониторить хостов 50...посмотрю, что из этого выйдет.

                Оставил 30 хостов - всё отлично.
                Last edited by igoreha311; 23-09-2011, 14:13.

                Comment

                • dima_dm
                  Senior Member
                  • Dec 2009
                  • 2697

                  #9
                  У вас iowait очень большой
                  Проверьте, что хосты опрашиваются по IP, а не по именам.
                  Попробуйте вынести MySQL базу на отдельный сервер.
                  Рекомендации по оптимизации MySQL базы

                  Если есть очередь Администрирование-> Очередь, нужно увеличивать количество Pollers.
                  /etc/zabbix/zabbix_server.conf
                  StartPollers
                  Last edited by dima_dm; 23-09-2011, 16:07. Reason: добавил про Pollers

                  Comment

                  • igoreha311
                    Member
                    • Sep 2011
                    • 99

                    #10
                    Originally posted by dima_dm
                    У вас iowait очень большой
                    Проверьте, что хосты опрашиваются по ip, а не по именам.
                    Попробуйте вынести mysql базу на отдельный сервер.
                    Рекомендации по оптимизации mysql базы

                    Если есть очередь Администрирование-> Очередь, нужно увеличивать количество pollers.
                    /etc/zabbix/zabbix_server.conf
                    startpollers
                    Спасибо!
                    Увеличил количество поллеров до 10 (возможно от 0 до 255) и уменьшил количество получаемых элементов данных - пока всё нормально
                    Узлы сети (пн/бн/ш): 334(274/0/60)
                    Элементы данных (а/д/нп): 29358(6095/23263/0)
                    Триггеры (а/д)[п/н/о]: 2454(1192/1262)[4/427/761]

                    Вынести базу на отдельный сервер нет возможности.

                    Comment

                    • lexey
                      Senior Member
                      • Sep 2011
                      • 104

                      #11
                      у меня проблема с падением процесса zabbix_server не решилась пока, вот кусок лога после чего служба останавливается... гдето 2-3 раза в сутки отваливается процесс ...
                      что-то по ним можно сказать, сам что-то не соображу

                      2718:20110927:170611.466 b7f50000-b7f51000 r-xp b7f50000 00:00 0 [vdso]
                      2718:20110927:170611.466 b7f51000-b7f6b000 r-xp 00000000 08:01 559201 /lib/ld-2.7.so
                      2718:20110927:170611.466 b7f6b000-b7f6d000 rw-p 0001a000 08:01 559201 /lib/ld-2.7.so
                      2718:20110927:170611.466 bf848000-bf86d000 rw-p bffdb000 00:00 0 [stack]
                      2718:20110927:170611.466 ================================
                      2718:20110927:170611.466 Please consider attaching a disassembly listing to your bug report.
                      2718:20110927:170611.466 This listing can be produced with, e.g., objdump -DSswx zabbix_server.
                      2718:20110927:170611.466 ================================
                      2619:20110927:170611.469 One child process died (PID:2718,exitcode/signal:255). Exiting ...
                      2619:20110927:170613.484 Syncing history data...
                      2619:20110927:170613.484 Syncing history data... done.
                      2619:20110927:170613.485 Syncing trends data...
                      2619:20110927:170613.702 Syncing trends data... done.
                      2619:20110927:170613.702 Zabbix Server stopped. Zabbix 1.8.7 (revision 21394).

                      запускаю ручками /etc/init.d/zabbix_server start

                      6005:20110927:173656.192 Starting Zabbix Server. Zabbix 1.8.7 (revision 21394).
                      6005:20110927:173656.193 ****** Enabled features ******
                      6005:20110927:173656.193 SNMP monitoring: YES
                      6005:20110927:173656.193 IPMI monitoring: NO
                      6005:20110927:173656.193 WEB monitoring: YES
                      6005:20110927:173656.193 Jabber notifications: NO
                      6005:20110927:173656.193 Ez Texting notifications: YES
                      6005:20110927:173656.193 ODBC: NO
                      6005:20110927:173656.193 SSH2 support: NO
                      6005:20110927:173656.193 IPv6 support: NO
                      6005:20110927:173656.193 ******************************
                      6006:20110927:173657.392 server #1 started [configuration syncer #1]
                      6007:20110927:173657.433 server #2 started [db watchdog #1]
                      6008:20110927:173657.562 server #3 started [poller #1]
                      6014:20110927:173657.574 server #9 started [trapper #1]
                      6015:20110927:173657.595 server #10 started [trapper #2]
                      6009:20110927:173657.599 server #4 started [poller #2]
                      6016:20110927:173657.615 server #11 started [trapper #3]
                      6017:20110927:173657.632 server #12 started [trapper #4]
                      6018:20110927:173657.648 server #13 started [trapper #5]
                      6010:20110927:173657.659 server #5 started [poller #3]
                      6020:20110927:173657.662 server #14 started [icmp pinger #1]
                      6011:20110927:173657.674 server #6 started [poller #4]
                      6022:20110927:173657.674 server #15 started [alerter #1]
                      6025:20110927:173657.685 server #16 started [housekeeper #1]
                      6025:20110927:173657.685 Executing housekeeper
                      6012:20110927:173657.689 server #7 started [poller #5]
                      6013:20110927:173657.720 server #8 started [unreachable poller #1]
                      6028:20110927:173657.721 server #17 started [timer #1]
                      6033:20110927:173657.753 server #18 started [http poller #1]
                      6036:20110927:173657.787 server #20 started [history syncer #1]
                      6038:20110927:173657.805 server #21 started [history syncer #2]
                      6040:20110927:173657.818 server #22 started [history syncer #3]
                      6042:20110927:173657.834 server #23 started [history syncer #4]
                      6044:20110927:173657.851 server #24 started [escalator #1]
                      6046:20110927:173657.869 server #25 started [proxy poller #1]
                      6048:20110927:173657.886 server #26 started [self-monitoring #1]
                      6005:20110927:173657.902 server #0 started [main process]
                      6035:20110927:173657.963 server #19 started [discoverer #1]
                      6025:20110927:173706.217 Deleted 0 records from history and trends
                      6016:20110927:173756.630 Sending list of active checks to [192.168.22.3] failed: host [head-it-3] not found
                      6014:20110927:173956.683 Sending list of active checks to [192.168.22.3] failed: host [head-it-3] not found
                      Last edited by lexey; 27-09-2011, 13:42.

                      Comment

                      • Zuzuka
                        Member
                        • Aug 2011
                        • 39

                        #12
                        Originally posted by lexey
                        гдето 2-3 раза в сутки отваливается процесс ...
                        У Zabbix 1.8.7 есть одна ошибка, связанная с триггерами, в которых используется функции: sum(), min(), max() или diff()
                        Возможно она и вываливает zabbix_server. В Release Notes ZABBIX 1.8.8rc3 есть ссылка на патч [ZBX-4099], который эту ошибку "лечит". Попробуй изменить файл "src/libs/zbxdbhigh/db.c", как там описано и перекомпилируй снова zabbix.

                        Comment

                        • dima_dm
                          Senior Member
                          • Dec 2009
                          • 2697

                          #13
                          Я нашёл причину падения zabbix_server (Zabbix 1.8.8). Я постоил графики по элементам
                          zabbix[wcache,<кэш>,<режим>]
                          http://www.zabbix.com/documentation/...l/config/items
                          т.е.
                          zabbix[wcache,history,pfree]
                          zabbix[wcache,trend,pfree]
                          zabbix[wcache,text,pfree]
                          И обнаружил, что падения zabbix_server случаются, когда заканчивается wcache для trend.
                          Далее я увеличил TrendCacheSizе с 4M до 40M
                          /etc/zabbix/zabbix_server.conf
                          TrendCacheSize=40M
                          И падения zabbix_server прекратились.
                          Last edited by dima_dm; 18-10-2011, 07:31.

                          Comment

                          Working...