Ad Widget

Collapse

Провалы на графике через равные интервал

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Travt
    Junior Member
    • Nov 2012
    • 8

    #1

    Провалы на графике через равные интервал

    Доброго дня,

    столкнулся с проблемой, график проваливается через равные промежутки времени.

    Zabbix сервер установлен на Ubuntu 12.04 в vSphere
    Code:
    localadmin@monitor:~$ uname -a
    Linux monitor.local 3.2.0-33-virtual #52-Ubuntu SMP Thu Oct 18 16:48:37 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux
    
    localadmin@monitor:~$ zabbix_server -V
    Zabbix Server v1.8.11 (revision 26205) (20 March 2012)
    Compilation time: Apr 10 2012 20:50:08
    Объект мониторинга маршрутизатор:
    Code:
    [root@thoog]~# zabbix_agentd -V
    Zabbix Agent (daemon) v1.8.3 (revision 13928) (16 August 2010)
    Compilation time: Dec  9 2010 13:34:12
    
    [root@thoog]~# uname -a
    FreeBSD thoog.local 8.2-RELEASE-p6 FreeBSD 8.2-RELEASE-p6 #0: Wed Feb 15 00:14:52 CET 2012     [email protected]:/usr/obj/nanobsd.BSDRP.amd64/root/BSDRP/FreeBSD/src/sys/BSDRP-AMD64  amd64
    вот такой график:



    после того как добавил в мониторинг еще несколько объектов, интервалы провалов сократились. И здесь, чтобы начать чтото исключать, установил Zabbix сервер на отдельно стоящий комп.

    график маршрутизатора с Zabbix установленного в vSphere, провалы участились:



    график тогоже маршрутизатора за тотже промежуток времени с Zabbix на отдельном компе:




    После этого собрал стенд. Генератор трафика (freebsd netblast), приемник трафика (freebsd 9.0), zabbix сервер (ubuntu 12.04)



    netstat с приемника во время провала, никаких аномалий:
    Code:
    sector6# netstat -I sis0 -w 5
                input         (sis0)           output
       packets  errs idrops      bytes    packets  errs      bytes colls
         72297     0     0   60730284       8459     0    7260256     0
         72854     0     0   60747561      10689     0    9378230     0
         72362     0     0   60763406       8712     0    7743734     0
         73345     0     0   60739152      11038     0    9551149     0
         72274     0     0   60764792      10820     0    8991444     0
         71908     0     0   60782004       9832     0    7717017     0
         72391     0     0   60754329      10743     0    8667297     0
         71816     0     0   60779332       9599     0    7843182     0
         72327     0     0   60760933      10739     0    9309261     0
         71985     0     0   60773940      10405     0    8633823     0
         72092     0     0   60767813      10525     0    8485566     0
         72806     0     0   60780402      10995     0    9341072     0
         72257     0     0   60737984       9766     0    7831922     0
         72604     0     0   60761895      10912     0    9010048     0
         72586     0     0   60796783       9894     0    8109754     0
         71970     0     0   60729314       8144     0    6713678     0
         72208     0     0   60766262      10310     0    8336812     0
         72424     0     0   60761502      10368     0    8670027     0
         71964     0     0   60773288       9803     0    7858192     0
    ^C
    sector6#
    netstat c генератора во премя провала, также никаких аномалий:
    Code:
    sector5# netstat -I em1 -w 5
                input          (em1)           output
       packets  errs idrops      bytes    packets  errs      bytes colls
            45     0     0       2700      71782     0   61097204     0
            48     0     0       3184      71753     0   60236680     0
            47     0     0       2820      71749     0   60236680     0
            47     0     0       3038      71755     0   60236680     0
            48     0     0       2880      71719     0   60236680     0
            54     0     0       3544      71704     0   61097204     0
            48     0     0       2880      71716     0   60236680     0
            48     0     0       3184      71764     0   60236680     0
            38     0     0       2280      71808     0   60236680     0
            50     0     0       3304      71742     0   60258572     0
            36     0     0       2160      71826     0   61075312     0
            34     0     0       2344      71905     0   60236680     0
            46     0     0       2760      71742     0   60236680     0
            46     0     0       3064      71778     0   61097204     0
            45     0     0       2700      71759     0   60236680     0
    ^C
    Plain text values со стенда:
    http://pastebin.com/V16KHkqV

    провалы на
    10:09:40
    10:24:40
    10:39:05
    10:54:10


    интервалы съема данных на всех графиках 5 секнуд.
  • zalex_ua
    Senior Member
    Zabbix Certified Trainer
    Zabbix Certified SpecialistZabbix Certified Professional
    • Oct 2009
    • 1286

    #2
    Какой тип проверок и какой ключ/оид ?

    Почему бы вам не попробовать последнюю версию 1.8.15 и для сервера и для агента ? Чтобы исключить вероятноть какойто уже пофикшеной баги.

    Comment

    • Travt
      Junior Member
      • Nov 2012
      • 8

      #3
      вот настройки со стенда, для интерфейса sis0:



      и для порта коммутатора в стенде:




      обновил Zabbix сервер на стенде:

      Code:
      zabbix_server -V
      Zabbix Server v1.8.15 (revision 29655) (20 August 2012)
      Compilation time: Nov 27 2012 10:14:17
      и тестовый замер, приемник трафика:



      порт коммутатора, в который вставлен генератор трафика:

      Comment

      • Travt
        Junior Member
        • Nov 2012
        • 8

        #4
        невлезли картинки в предыдущий пост..

        график генератора трафика, снятый Zabbix который работает в vSphere, совсем другой:



        По графикам стабильные 20-ти мегабитные просадки, которых невидно в netstat.

        Подскажите способ, которым можно провести более чистый замер дельты, возможно мой вариант не самый лучший.

        Comment

        • zalex_ua
          Senior Member
          Zabbix Certified Trainer
          Zabbix Certified SpecialistZabbix Certified Professional
          • Oct 2009
          • 1286

          #5
          Так а может эти просадки из-за комутатора ?

          На всякий случай тут некая табличка, хотя это не связанно с вашим случаем похоже.

          Comment

          • Travt
            Junior Member
            • Nov 2012
            • 8

            #6
            Тест без коммутатора, трафик инъектился через netgraph:

            Code:
            zbxtest# zabbix_server -V
            Zabbix Server v1.8.15 (revision 29655) (20 August 2012)
            Compilation time: Nov 28 2012 18:41:46
            
            zbxtest# zabbix_agent -V
            Zabbix Agent v1.8.15 (revision 29655) (20 August 2012)
            Compilation time: Nov 28 2012 18:41:46
            
            zbxtest# uname -a
            FreeBSD zbxtest 9.0-RELEASE-p3 FreeBSD 9.0-RELEASE-p3 #0: Tue Jun 12 02:52:29 UTC 2012     [email protected]:/usr/obj/usr/src/sys/GENERIC  amd64
            график, 20:08-20:10 пробный забег:




            Завтра попробую на линуксе.
            Last edited by Travt; 28-11-2012, 23:10.

            Comment

            • zalex_ua
              Senior Member
              Zabbix Certified Trainer
              Zabbix Certified SpecialistZabbix Certified Professional
              • Oct 2009
              • 1286

              #7
              Попробуйте создать идентичный айтем (может еще один хост заведите) и получать значения этого ключа, но без преобразования в бит/с а просто как байты (счетчик), сравните какие значения вы получате в те периоды когда есть провалы.

              Comment

              • Travt
                Junior Member
                • Nov 2012
                • 8

                #8
                график дельты в битах:



                plain text values:
                http://pastebin.com/hSkhXXYr

                просадки:
                Code:
                2012-11-29 05:54:14     1354154054      93905715.2
                2012-11-29 05:54:09     1354154049      93905715.2
                2012-11-29 05:54:04     1354154044      75676057.6
                2012-11-29 05:53:59     1354154039      94058905.6
                2012-11-29 05:53:54     1354154034      94058905.6
                ...
                2012-11-29 06:07:39     1354154859      93905715.2
                2012-11-29 06:07:34     1354154854      94365286.4
                2012-11-29 06:07:29     1354154849      75522867.2
                2012-11-29 06:07:24     1354154844      94058905.6
                2012-11-29 06:07:19     1354154839      94058905.6
                ...
                2012-11-29 06:20:44     1354155644      93752524.8
                2012-11-29 06:20:39     1354155639      94058905.6
                2012-11-29 06:20:34     1354155634      75522867.2
                2012-11-29 06:20:29     1354155629      94058905.6
                2012-11-29 06:20:24     1354155624      94212096
                ...
                2012-11-29 06:34:09     1354156449      94058905.6
                2012-11-29 06:34:04     1354156444      93905715.2
                2012-11-29 06:33:59     1354156439      75522867.2
                2012-11-29 06:33:54     1354156434      94058905.6
                2012-11-29 06:33:49     1354156429      94058905.6
                график дельты в байтах:



                plain text values:
                http://pastebin.com/tEBemKCy

                просадки:
                Code:
                2012-11-29 05:54:13     1354154053      11757363.2
                2012-11-29 05:54:08     1354154048      11738214.4
                2012-11-29 05:54:03     1354154043      9440358.4
                2012-11-29 05:53:58     1354154038      11757363.2
                2012-11-29 05:53:53     1354154033      11776512
                ...
                2012-11-29 06:07:38     1354154858      11680768
                2012-11-29 06:07:33     1354154853      11814809.6
                2012-11-29 06:07:28     1354154848      9440358.4
                2012-11-29 06:07:23     1354154843      11757363.2
                2012-11-29 06:07:18     1354154838      11757363.2
                ...
                2012-11-29 06:20:43     1354155643      11776512
                2012-11-29 06:20:38     1354155638      11757363.2
                2012-11-29 06:20:33     1354155633      9440358.4
                2012-11-29 06:20:28     1354155628      11757363.2
                2012-11-29 06:20:23     1354155623      11757363.2
                ...
                2012-11-29 06:34:08     1354156448      11738214.4
                2012-11-29 06:34:03     1354156443      11757363.2
                2012-11-29 06:33:58     1354156438      9421209.6
                2012-11-29 06:33:53     1354156433      11776512
                2012-11-29 06:33:48     1354156428      11757363.2
                график as is:



                plain text values:
                http://pastebin.com/AYu3AkLf

                просадки, в скобках разность:
                Code:
                2012-11-29 05:54:14     1354154054      362818317172 (58595328)
                2012-11-29 05:54:09     1354154049      362759721844 (58786816)
                2012-11-29 05:54:04     1354154044      362700935028 (47297536)
                2012-11-29 05:53:59     1354154039      362653637492 (58786816)
                2012-11-29 05:53:54     1354154034      362594850676
                ...
                2012-11-29 06:07:39     1354154859      372274186100 (58691072)
                2012-11-29 06:07:34     1354154854      372215495028 (58978304)
                2012-11-29 06:07:29     1354154849      372156516724 (47201792)
                2012-11-29 06:07:24     1354154844      372109314932 (58786816)
                2012-11-29 06:07:19     1354154839      372050528116
                ...
                2012-11-29 06:20:44     1354155644      381494620532 (58595328)
                2012-11-29 06:20:39     1354155639      381436025204 (58786816)
                2012-11-29 06:20:34     1354155634      381377238388 (47201792)
                2012-11-29 06:20:29     1354155629      381330036596 (58786816)
                2012-11-29 06:20:24     1354155624      381271249780
                ...
                2012-11-29 06:34:09     1354156449      390950297972 (58786816)
                2012-11-29 06:34:04     1354156444      390891511156 (58691072)
                2012-11-29 06:33:59     1354156439      390832820084 (47201792)
                2012-11-29 06:33:54     1354156434      390785618292 (58786816)
                2012-11-29 06:33:49     1354156429      390726831476

                график рисуется абсолютно верно, исходя из значений, однако после добавления этих двух дополнительных итемов, интервал просадки немного сократился, что в целом повторяет изначальные наблюдения.

                Comment

                • zalex_ua
                  Senior Member
                  Zabbix Certified Trainer
                  Zabbix Certified SpecialistZabbix Certified Professional
                  • Oct 2009
                  • 1286

                  #9
                  значит тогда вопрос к хосту (ОС) который отдает эти значения, почему он иногда отдает значения меньше, при том что загрузка канала очень стабильна.

                  Comment

                  • Travt
                    Junior Member
                    • Nov 2012
                    • 8

                    #10
                    В предыдущих сообщениях есть замер со свича снятый по snmp, c аналогичными просадками, хотя во всех случиях объектом мониторинга либо источником трафика было freebsd.

                    последний график с этого сденда, перед тем как поставлю туда линукс.

                    добавил еще один хост с кучей итемов (шаблон snmpv2 device) и интервал просадок значительно сократился:

                    Comment

                    • Travt
                      Junior Member
                      • Nov 2012
                      • 8

                      #11
                      новый стенд:

                      Code:
                      root@debian:~# uname -a
                      Linux debian 2.6.32-5-amd64 #1 SMP Sun Sep 23 10:07:46 UTC 2012 x86_64 GNU/Linux
                      
                      root@debian:~# zabbix_server -V
                      Zabbix Server v1.8.15 (revision 29655) (20 August 2012)
                      Compilation time: Nov 29 2012 22:45:04
                      
                      root@debian:~# zabbix_agent -V
                      Zabbix Agent v1.8.15 (revision 29655) (20 August 2012)
                      Compilation time: Nov 29 2012 22:45:04
                      дефолтовый шаблон linux, генератор pktgen:

                      Comment

                      • zalex_ua
                        Senior Member
                        Zabbix Certified Trainer
                        Zabbix Certified SpecialistZabbix Certified Professional
                        • Oct 2009
                        • 1286

                        #12
                        попрбуйте увеличить частоту опроса до 10 секунд например.

                        Ведь на постоянной и ровной скорости даже замер с отклонением интервала в миллисекунды будет заметен на полученном значении.

                        планирование работы пуллеров (распределение работы между ними) это очень тонкий момент - на него действительно будет иметь влияние также и наличие других айиемов, - насколько пуллерам будет позволительно засыпать и просыпаться.
                        Когда много мониторящихся айтемов то и пуллеры могут вести себя немного по другому, в общем гарантируется частота снятия данных до секунды.
                        может в этом и есть вся тонкость

                        Включите например дебаглог сервера (=4) и только один айтем который работает без таймаутов (быстро отдает данные) с интервалом опроса в 1 секунду - и вы увидите как секунда, точно не помню, кажется через 30 значений, уползет вперед.

                        Comment

                        • Travt
                          Junior Member
                          • Nov 2012
                          • 8

                          #13
                          вчера не стал постить еще один 5-ти секундный график после добавления второго хоста в мониторинг. вот он:



                          выставил интервал на 10 секунд:



                          я не верю что таки просадки могут быть изза дизайна и архитектуры, в таком случии мониторить и обратывать триггеры со значений стабильных дельт невозможно.

                          Comment

                          • gavind
                            Member
                            • Mar 2013
                            • 59

                            #14
                            Hi Travt, I'm just wondering. What version are you currently using?

                            Comment

                            Working...