Ad Widget

Collapse

прокси перестают отправлять данные

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • kalek
    Junior Member
    • Nov 2023
    • 12

    #1

    прокси перестают отправлять данные

    Добрый день.
    Конфиг:
    Zabbix 6.4. Два сервера с настроенным HA, два прокси, работающих в пассивном режиме.

    Проблема:
    Периодически то один, то другой прокси перестают отдавать данные серверу и дальше либо ждать, что через полчаса-час они сами очнутся, либо перезапускать их. В любом случае данные, собиравшиеся с агентов за это время теряются бесследно, не смотря на то, что в конфиге проски прописано
    ProxyLocalBuffer=2
    ProxyOfflineBuffer=72
    из чего делаю вывод, что проблема не в сервере и не в связи с ним.
    Агент, поставленный на машину с прокси, общается с сервером напрямую и во время этих сбоев продолжает исправно собирать/передавать данные.
    Эти машины мониторятся при помощи родного темплейта Zabbix proxy health с git.zabbix.com, но все метрики, за исключением размера очереди, практически не отличаются до, после и во время сбоя.
    Каких-то скачков по потреблению памяти или процессора тоже не наблюдается.
    При переключении прокси в активный режим падения происходят точно так же.
    Обновление до свежей 6.4.8 не помогло.
    Увеличение количества поллеров, добавление оперативки машине тоже ничего не дало.
    Прикрутил action, который на рост очереди на заббикс прокси их рестартует, но это костыль, а проблема так и остается нерешенной.

    Подскажите в какую сторону копать или что еще можно сделать?​
  • Kos
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Aug 2015
    • 3404

    #2
    Проблема явно не только со связью, иначе бы данные после перезапуска проксей всё же доходили бы до сервера.

    Конкретно сказать не могу, но некоторые мысли по этому поводу:
    • Убедитесь, что мажорные версии прокси-серверов совпадают с мажорными версиями сервера Zabbix. Т.е. если сервер 6.4.х, то и прокси должны быть 6.4.х, а не 6.2.х, 6.0.х и т.д.
    • Прокси должны мониториться через себя. Т.е. агент, работающий на прокси, тоже должен связываться с сервером через этот же прокси. Это вещь неочевидная, но если это не так - то стандартные шаблоны для прокси мониторят не их, а сам сервер Zabbix (поэтому в мониторинге вы никаких проблем и не видите). Перенастройте - глядишь, что-то и обнаружится.
    • "Два прокси" - это ведь реально два разных прокси-сервера, каждый из которых собирает что-то свое (а не кластер из проксей)? Поскольку встроенная HA (кластеризация для отказоустойчивости), насколько я помню, поддерживается для серверов, но не для проксей (т.е. прокси штатным образом кластеризовать нельзя).

    Comment

    • kalek
      Junior Member
      • Nov 2023
      • 12

      #3
      • Версии сервера и прокси одинаковые - все обновлял до 6.4.8.
      • Прокси изначально и мониторили сами себя, но во время сбоев данные с них точно так же терялись, потому и переключил агентов на них на прямое общение с сервером.
      • Да, два прокси - это две отдельные машины, собирающие различные данные. Между собой они никак не связаны.

      Comment

      • kharkov_max
        Member
        • Mar 2016
        • 83

        #4
        Zabbix 6.4. Два сервера с настроенным HA, два прокси, работающих в пассивном режиме. - прокси не передает данные, а сервер с них данные забирает. что в логах на сервере ?

        Comment

        • kalek
          Junior Member
          • Nov 2023
          • 12

          #5
          Сервер в лог выдал статистику, предложил увеличить ValueCacheSize и написал, что отправил конфиг проксям:

          1216:20231114:021857.066 sending configuration data to proxy "plzbxprxyd01.arvato.ru" at "10.131.68.50", datalen 165, bytes 128 with compression ratio 1.3
          1237:20231114:021910.061 sending configuration data to proxy "plzbxprxys01.arvato.ru" at "10.220.255.22", datalen 165, bytes 128 with compression ratio 1.3
          1194:20231114:021944.005 === most used items statistics for value cache ===
          1194:20231114:021944.008 itemid:197967 active range:2592001 hits:144680696 count:45085 perc:0.160931%
          1194:20231114:021944.008 itemid:144744 active range:2592001 hits:144634219 count:45084 perc:0.160927%
          1194:20231114:021944.008 itemid:144730 active range:2592001 hits:144676074 count:45084 perc:0.160927%
          1194:20231114:021944.008 itemid:147588 active range:2592001 hits:144632493 count:45084 perc:0.160927%
          1194:20231114:021944.008 itemid:144755 active range:2592001 hits:144640630 count:45084 perc:0.160927%
          1194:20231114:021944.008 itemid:144741 active range:2592001 hits:144642659 count:45084 perc:0.160927%
          1194:20231114:021944.008 itemid:144720 active range:2592001 hits:144672007 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144735 active range:2592001 hits:144642665 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144759 active range:2592001 hits:144642950 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:193773 active range:2592001 hits:144682389 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144721 active range:2592001 hits:144671719 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144761 active range:2592001 hits:144639600 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144713 active range:2592001 hits:144675788 count:45084 perc:0.160927%
          1194:20231114:021944.009 itemid:144737 active range:2592001 hits:144642665 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:144716 active range:2592001 hits:144677108 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:144733 active range:2592001 hits:144639315 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:144751 active range:2592001 hits:144635965 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:144714 active range:2592001 hits:144679139 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:152729 active range:2592001 hits:144630810 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:144739 active range:2592001 hits:144639600 count:45084 perc:0.160927%
          1194:20231114:021944.010 itemid:152965 active range:2592001 hits:144677157 count:45084 perc:0.160927%
          1194:20231114:021944.011 itemid:144729 active range:2592001 hits:144676074 count:45084 perc:0.160927%
          1194:20231114:021944.011 itemid:144717 active range:2592001 hits:144675072 count:45084 perc:0.160927%
          1194:20231114:021944.011 itemid:249029 active range:2592001 hits:144630869 count:45084 perc:0.160927%
          1194:20231114:021944.011 itemid:144724 active range:2592001 hits:144682488 count:45084 perc:0.160927%
          1194:20231114:021944.011 ==================================================
          1194:20231114:021944.014 === memory statistics for value cache size ===
          1194:20231114:021944.014 free chunks of size 24 bytes: 218
          1194:20231114:021944.015 free chunks of size 32 bytes: 68
          1194:20231114:021944.015 free chunks of size 40 bytes: 23
          1194:20231114:021944.015 free chunks of size 48 bytes: 63
          1194:20231114:021944.015 free chunks of size 56 bytes: 12
          1194:20231114:021944.015 free chunks of size 64 bytes: 1
          1194:20231114:021944.015 free chunks of size 80 bytes: 1
          1194:20231114:021944.015 free chunks of size 96 bytes: 1
          1194:20231114:021944.015 free chunks of size 136 bytes: 1
          1194:20231114:021944.015 free chunks of size >= 256 bytes: 7271
          1194:20231114:021944.016 min chunk size: 24 bytes
          1194:20231114:021944.016 max chunk size: 323744 bytes
          1194:20231114:021944.016 memory of total size 535897456 bytes fragmented into 60818 chunks
          1194:20231114:021944.016 of those, 84574656 bytes are in 7659 free chunks
          1194:20231114:021944.016 of those, 451322800 bytes are in 53159 used chunks
          1194:20231114:021944.016 of those, 973072 bytes are used by allocation overhead
          1194:20231114:021944.016 ================================
          1194:20231114:021944.016 value cache is fully used: please increase ValueCacheSize configuration parameter
          1239:20231114:022010.169 sending configuration data to proxy "plzbxprxys01.arvato.ru" at "10.220.255.22", datalen 165, bytes 128 with compression ratio 1.3
          1223:20231114:022027.204 sending configuration data to proxy "plzbxprxyd01.arvato.ru" at "10.131.68.50", datalen 165, bytes 128 with compression ratio 1.3


          На проксе только сообщения о получении данных с сервера
          3945955:20231114:021910.038 received configuration data from server at "10.131.68.48", datalen 165
          3945959:20231114:022010.147 received configuration data from server at "10.131.68.48", datalen 165
          3945955:20231114:022110.312 received configuration data from server at "10.131.68.48", datalen 165
          3945959:20231114:022210.458 received configuration data from server at "10.131.68.48", datalen 165

          Comment

          • Kos
            Senior Member
            Zabbix Certified SpecialistZabbix Certified Professional
            • Aug 2015
            • 3404

            #6
            Originally posted by kalek
            Сервер в лог выдал статистику, предложил увеличить ValueCacheSize и написал, что отправил конфиг проксям:


            1194:20231114:021944.016 value cache is fully used: please increase ValueCacheSize configuration parameter
            Ну так в этом и проблема. Серверу не хватает выделенной в конфиге оперативки для обработки нужного количества данных, он и перестаёт опрашивать прокси.
            А поскольку прокси настроены на работу в пассивном режиме, то они в дальнейшем просто ждут опроса со стороны сервера.

            Т.е. проблема не на стороне проксе-серверов, а на стороне центрального сервера; причём он об этом сам явно сказал в логе.
            Какое у вас текущее значение ValueCacheSize? Есть ли возможность его увеличить?

            Comment

            • kalek
              Junior Member
              • Nov 2023
              • 12

              #7
              Текущее значение
              ValueCacheSize=512M

              ​собственно я его уже увеличивал, раньше было 256М.
              Сколько стоит прибавить, исходя из того, что на данный момент мониторится порядка 400 хостов и 35тыс+ айтемов?

              Comment

              • Kos
                Senior Member
                Zabbix Certified SpecialistZabbix Certified Professional
                • Aug 2015
                • 3404

                #8
                Originally posted by kalek
                Текущее значение
                ValueCacheSize=512M

                ​собственно я его уже увеличивал, раньше было 256М.
                Сколько стоит прибавить, исходя из того, что на данный момент мониторится порядка 400 хостов и 35тыс+ айтемов?
                Ну, точных цифр никто не скажет, нужно подбирать исходя из ситуации.
                Скажем, у нас мониторится порядка 450 хостов и около 25 тыс. активированных айтемов (т.е. порядок примерно такой же), и работает с теми же 512M.
                Я бы увеличил ещё раза в полтора.

                Comment

                • Semiadmin
                  Senior Member
                  • Oct 2014
                  • 1625

                  #9
                  Или посмотреть, какие есть триггеры и вычисляемые айтемы с большим периодом наблюдения. Может, каким-то он и не нужен, а какие-то можно на trend functions переделать

                  Comment

                  • kalek
                    Junior Member
                    • Nov 2023
                    • 12

                    #10
                    Выставил
                    ValueCacheSize=1024M
                    ​пару дней поработало спокойно, а сегодня снова прокся отвалилась.
                    И в этот раз в логах сервера никаких жалоб на нехватку кэша, только записи "sending configuration data to proxy"

                    А в логах прокси только
                    4071411:20231116:080911.323 SNMP agent item "battery.status" on host "ups14" failed: first network error, wait for 15 seconds
                    4071325:20231116:080940.827 received configuration data from server at "10.131.68.48", datalen 164
                    4071413:20231116:080956.097 SNMP agent item "battery.status" on host "ups14" failed: another network error, wait for 15 seconds
                    4071421:20231116:081041.037 temporarily disabling SNMP agent checks on host "ups14": interface unavailable
                    4071326:20231116:081110.193 received configuration data from server at "10.131.68.48", datalen 7106
                    4071326:20231116:081110.212 cannot get secrets for path "secret/Infra/zbx/esx02": no data
                    4071326:20231116:081110.212 cannot get secrets for path "secret/Infra/zbx/esx01": no data
                    4071326:20231116:081110.212 cannot get secrets for path "secret/Infra/zbx/vm_guest": no data
                    4071418:20231116:081114.291 enabling SNMP agent checks on host "ups13": interface became available
                    4071413:20231116:081141.194 enabling SNMP agent checks on host "ups14": interface became available
                    4071329:20231116:081210.258 received configuration data from server at "10.131.68.48", datalen 7106

                    Comment

                    • Алексей Мучлер
                      Junior Member
                      • Nov 2023
                      • 1

                      #11
                      Проверьте, что SNMP на хосте "ups14" настроен корректно и доступен

                      Comment

                      • kalek
                        Junior Member
                        • Nov 2023
                        • 12

                        #12
                        SNMP работает нормально. Прокси при сбоях пишет network error про хост, который в данный момент опрашивался, а не про какой-то конкретный.
                        В данном случае это оказался ups14

                        Comment

                        Working...