Ad Widget

Collapse

Прерывистые графики

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • sprite
    Junior Member
    • Oct 2014
    • 8

    #1

    Прерывистые графики

    Добрый день.
    Никак не могу разобраться с проблемой. Графики данных собранных по snmp не отрисовываются непрерывно (рисунок прикреплен).
    Click image for larger version

Name:	chart2.php.jpg
Views:	2
Size:	36.5 KB
ID:	317014
    Как я понимаю это не собраны данные. Искал подобное в инете никак не найду решения. В логах часто встречается подобное

    Code:
     28455:20141030:120928.231 SNMP agent item "ifDescr" on host "MA59" failed: first network error, wait for 30 seconds
     28369:20141030:120928.479 SNMP agent item "ifHCOutOctets[Ethernet1/10]" on host "MA127" failed: first network error, wait for 30 seconds
     28735:20141030:120933.153 resuming SNMP agent checks on host "10.10.10.3": connection restored
    конфиг заббикса такой (версия 2.2.5.)
    Code:
    LogFile=/var/log/zabbix/zabbix_server.log
    LogFileSize=128
    PidFile=/run/zabbix/zabbix_server.pid
    DBHost=localhost
    DBName=zabbix1
    DBUser=zabbix
    DBPassword=****
    StartPollers=200
    StartPollersUnreachable=100
    StartPingers=100
    StartDiscoverers=20
    CacheSize=2G
    StartDBSyncers=4
    HistoryCacheSize=2G
    TrendCacheSize=2G
    HistoryTextCacheSize=2G
    ValueCacheSize=2G
    Timeout=30
    UnreachableDelay=30
    AlertScriptsPath=/var/lib/zabbix/alertscripts
    ExternalScripts=/var/lib/zabbix/externalscripts
    Сервер не слабый 48Г памяти и 2 CPU X5550, поэтому памяти и поллеров выделять не жалел. Но результата это не дало. Кто может подсказать куда копать. В чем проблема.
  • yukra
    Senior Member
    • Apr 2013
    • 1359

    #2
    Сервер случаем не в xen живет? Наблюдаю у себя подобные ошибки как раз держа сервер в ксене. Но у меня сейчас нет snmp и я тупо перешел на активные проверки.

    Comment

    • sprite
      Junior Member
      • Oct 2014
      • 8

      #3
      Originally posted by yukra
      Сервер случаем не в xen живет?
      нет, отдельный сервер.
      Originally posted by yukra
      Но у меня сейчас нет snmp и я тупо перешел на активные проверки.
      у меня куча коммутаторов у них только snmp

      Comment

      • lopaka
        Junior Member
        • Dec 2013
        • 15

        #4
        Посмотри не отваливаются ли итемы.
        Была схожая проблема, мониторил по snmp hp ilo. При увеличении количества проверок на один хост отваливались половина итемов.

        Помогло уменьшение проверок на один хост.
        Last edited by lopaka; 31-10-2014, 11:40.

        Comment

        • sprite
          Junior Member
          • Oct 2014
          • 8

          #5
          Originally posted by lopaka
          Посмотри не отваливаются ли итемы.
          Была схожая проблема, мониторил по snmp hp ilo. При увеличении количества проверок на один хост отваливались половина итемов.

          Помогло уменьшение проверок на один хост.
          А как их проверить? И какой параметр подкручивать?

          Comment

          • sadman
            Senior Member
            • Dec 2010
            • 1611

            #6
            Мне кажется, что в эти периоды (когда точечки) айтем становится unsupported, а это видно через веб-интерфейс.
            Подкручивать, наверное, стоит время между проверками каждого айтема (пореже сделать), но для начала оставить активным один подозрительный.

            Вообще, в unsupported может сваливаться айтем по не совсем очевидной причине. Был у меня случай, когда при снятии нагрузки с логических процессоров периодически несколько вылетали в unsupported. После определенных размышлений я пришел к гипотезе о том, что система при малой загрузке отключает процессоры и агент перестает их видеть, соответственно вываливает unsupported до того момента, как нагрузка на наблюдаемом хосте вырастет и процессоры опять подключатся.

            Comment

            • Zentarim
              Senior Member
              • Mar 2012
              • 526

              #7
              Что у вас за коммутаторы? У меня встречалось похожее поведение на тех железках, которые не могут вернуть ответ на большое количество OID в запросе.

              Для проверки этого отключите почти все элементы данных на свиче. Оставьте 3-5 элементов и наблюдайте. Если они будут собираться нормально - то вам сюда:

              Comment

              • gdgsoft
                Senior Member
                • Apr 2009
                • 202

                #8
                sprite, сколько у вас железок в мониторинге находится?
                Учитывая то, что количество пулеров 200, осмелюсь предположить, что пара тысяч.

                Начиная с версии 2.2.3 парни из Zabbix включили фитчу, которая называется BulkSNMP. И начался полный капец. Мы до этой недели оставались на версии 2.2.2 из-за этого.
                Для начала я хочу Вам порекомендовать апдейтнутся до версии 2.2.7!!! В конфиге этой версии есть переменная для отключения этой фитчи. После ее отключения у нас все пришло в норму.
                Zabbix 2.4.2
                PHP 5.4.5
                Oracle Linux 6.5
                VmWare ESXi 4

                MariaDB 10.0.15
                Oracle Linux 6.5
                Supermicro SYS-6027TRF(64Gb+RAID-10 600Gb SAS15k)

                Comment

                • Zentarim
                  Senior Member
                  • Mar 2012
                  • 526

                  #9
                  Originally posted by gdgsoft
                  В конфиге этой версии есть переменная для отключения этой фитчи. После ее отключения у нас все пришло в норму.
                  Кстати вопрос: на каком уровне SNMP bulkget отключается? На уровне интерфейса устройства? Или вообще глобально?

                  Comment

                  • gdgsoft
                    Senior Member
                    • Apr 2009
                    • 202

                    #10
                    Originally posted by zentarim
                    Кстати вопрос: на каком уровне snmp bulkget отключается? На уровне интерфейса устройства? Или вообще глобально?
                    Как заявляют забексеры, то в 2.2 это включается/отключается глобально. В 2.4 отдельно для каждого хоста.
                    Но я не уверен, что они это внедрили на 2.4 уже. Может как раз в 2.4.2 будет.
                    Zabbix 2.4.2
                    PHP 5.4.5
                    Oracle Linux 6.5
                    VmWare ESXi 4

                    MariaDB 10.0.15
                    Oracle Linux 6.5
                    Supermicro SYS-6027TRF(64Gb+RAID-10 600Gb SAS15k)

                    Comment

                    • Shans
                      Junior Member
                      • Nov 2013
                      • 14

                      #11
                      Originally posted by gdgsoft
                      Как заявляют забексеры, то в 2.2 это включается/отключается глобально. В 2.4 отдельно для каждого хоста.
                      Но я не уверен, что они это внедрили на 2.4 уже. Может как раз в 2.4.2 будет.
                      Просветите, пожалуйста, как переменная обзывается в конфиге. Та же беда начиная с версии 2.2.3 и далее: спонтанные взблёвы занятости пуллеров до 100%, рост очередей, потеря данных. Откат на 2.2.2 решает проблему, при неизменном количестве узлов и элементов.

                      Comment

                      • Shans
                        Junior Member
                        • Nov 2013
                        • 14

                        #12
                        Originally posted by Shans
                        Просветите, пожалуйста, как переменная обзывается в конфиге. Та же беда начиная с версии 2.2.3 и далее: спонтанные взблёвы занятости пуллеров до 100%, рост очередей, потеря данных. Откат на 2.2.2 решает проблему, при неизменном количестве узлов и элементов.
                        Отвечу-ка я сам себе. Версия 2.4.1. Отключаем в свойствах узлов сети (в каждом индивидуально) "Использовать массовые запросы" для интерфейсов snmp. Далее по старинке нагрузку регулируем количеством пуллеров в конфиге сервера.

                        Comment

                        • rahs
                          Senior Member
                          • Nov 2009
                          • 125

                          #13
                          Originally posted by Shans
                          Просветите, пожалуйста, как переменная обзывается в конфиге
                          Code:
                          ### Option: EnableSNMPBulkRequests
                          #       Enable or disable SNMP bulk requests.
                          #       0 - disable
                          #       1 - enable
                          #
                          # Mandatory: no
                          # Default:
                          # EnableSNMPBulkRequests=1

                          Comment

                          • sprite
                            Junior Member
                            • Oct 2014
                            • 8

                            #14
                            Originally posted by gdgsoft
                            sprite, сколько у вас железок в мониторинге находится?
                            Учитывая то, что количество пулеров 200, осмелюсь предположить, что пара тысяч.
                            нет, порядка 250. Пулеры я увеличивал сам. Просто в начале когда я увеличил до 100 ситуация стала лучше, но при добавление новых устройств, опять стало также и вновь увеличение пулеров не дало эффекта. А так планировалось поряда 2-3 тыс. повесить на мониторинг.


                            В конфиге этой версии есть переменная для отключения этой фитчи. После ее отключения у нас все пришло в норму.
                            попробую.

                            Comment

                            • sprite
                              Junior Member
                              • Oct 2014
                              • 8

                              #15
                              Originally posted by Zentarim
                              Что у вас за коммутаторы? У меня встречалось похожее поведение на тех железках, которые не могут вернуть ответ на большое количество OID в запросе.

                              Для проверки этого отключите почти все элементы данных на свиче. Оставьте 3-5 элементов и наблюдайте. Если они будут собираться нормально - то вам сюда:
                              https://support.zabbix.com/browse/ZBXNEXT-2301
                              В основном длинки 36хх и 30хх серии, snr и qtech, есть несколько цисок и джунипер.

                              Comment

                              Working...