Ad Widget

Collapse

Крах при использовании lld

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • bga83
    Senior Member
    • Sep 2011
    • 268

    #1

    Крах при использовании lld

    Ситуация:
    сервер Zabbix на SLES 11 SP2, MySQL 5.0.95 Innodb
    После того как начал использовать LLD с самописными скриптами, то начал наблюдать следующее - постепенно убывает место в "кеше записи trend Zabbix"(проверка zabbix[wcache,trend,pfree]). После того как место там заканчивается происходит падение сервера. Пока увеличил TrendCacheSize(и еше ряд параметров, связанных с кешем), чтобы этот процесс занимал больше времени и была возможность произвести перезапуск сервера.
    Бинарники серверной части Zabbix собирались самостоятельно. Подобное наблюдаю на версиях 2.0.0, 2.0.5, 2.0.6 (остальные не пробовал).

    LLD используется для обнаружения выпавших в maintenance служб на Solaris и на этой же ОС выявляются процессы долгое время "сильно отъедающие" ресурсы CPU. Период сохранения потерянных ресурсов для обнаружения служб 1 день, для процессов стоит 0 (сразу удаляется). Версия агента 2.0.4 - но она по идее не должна вообще влиять на такое поведение сервера.

    Какие есть идеи как можно исправить ситуацию? если надо привести дополнительную информацию, пишите что именно.
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    У меня была подобная проблема на 1.8.8

    Решил увеличением TrendCacheSize.

    Comment

    • bga83
      Senior Member
      • Sep 2011
      • 268

      #3
      Originally posted by dima_dm
      У меня была подобная проблема на 1.8.8

      Решил увеличением TrendCacheSize.
      видел эту тему. Но у меня простое уведичение TrendCacheSize приводит лишь к тому, что до момента падения проходит больше времени.

      Comment

      • Alexei
        Founder, CEO
        Zabbix Certified Trainer
        Zabbix Certified SpecialistZabbix Certified Professional
        • Sep 2004
        • 5654

        #4
        Originally posted by bga83
        видел эту тему. Но у меня простое уведичение TrendCacheSize приводит лишь к тому, что до момента падения проходит больше времени.
        Zabbix постепенно заполняет пространство TrendCache и в какой-то момент потребление памяти стабилизируется. Поэтому увеличьте TrendCacheSize и не забывайте следить за его использованием средствами самого Zabbix'а.
        Alexei Vladishev
        Creator of Zabbix, Product manager
        New York | Tokyo | Riga
        My Twitter

        Comment

        • bga83
          Senior Member
          • Sep 2011
          • 268

          #5
          Originally posted by alexei
          zabbix постепенно заполняет пространство trendcache и в какой-то момент потребление памяти стабилизируется. Поэтому увеличьте trendcachesize и не забывайте следить за его использованием средствами самого zabbix'а.
          Ок, спасибо, попробую. На состояние кеша уже имеются триггеры и соответсвующие уведомления.
          Last edited by bga83; 31-07-2013, 15:18.

          Comment

          • bga83
            Senior Member
            • Sep 2011
            • 268

            #6
            При значении trendcachesize 40М после примерно за 16 дней Zabbix опять остановился со следующими записями в логах:
            Code:
              2948:20130815:005013.351 __mem_malloc: skipped 0 asked 24 skip_min 4294967295 skip_max 0
              2948:20130815:005013.351 [file:dbcache.c,line:2884] zbx_mem_malloc(): out of memory (requested 24 bytes)
              2948:20130815:005013.351 [file:dbcache.c,line:2884] zbx_mem_malloc(): please increase TrendCacheSize configuration parameter
              2896:20130815:005013.536 One child process died (PID:2948,exitcode/signal:255). Exiting ...
            Увеличил еще, на этот раз до 128М, буду смотреть.

            Comment

            • Alexei
              Founder, CEO
              Zabbix Certified Trainer
              Zabbix Certified SpecialistZabbix Certified Professional
              • Sep 2004
              • 5654

              #7
              Интересно было бы на график роста использования кеша посмотреть за несколько дней. Как часто добавляются новые айтемы?
              Alexei Vladishev
              Creator of Zabbix, Product manager
              New York | Tokyo | Riga
              My Twitter

              Comment

              • Alexei
                Founder, CEO
                Zabbix Certified Trainer
                Zabbix Certified SpecialistZabbix Certified Professional
                • Sep 2004
                • 5654

                #8
                Будем смотреть как поведёт себя график в будущем. Стоит помнить, что удалённые айтемы остаются в кеше. При добавления новых айтемов использование кеша будет постоянно расти.
                Alexei Vladishev
                Creator of Zabbix, Product manager
                New York | Tokyo | Riga
                My Twitter

                Comment

                • bga83
                  Senior Member
                  • Sep 2011
                  • 268

                  #9
                  случайно стер свой предудущий пост.
                  Поэтому еще раз. По поводу того как часто добавляются новые элементы:
                  - обнаружение, выявляющие отвалившиеся службы выполняется каждые 10 минут. Но новые элементы там появляются раз в один-два месяца, в остальное время возвращается пустой набор.
                  - обнаружение, выявляющее процессы, потребляющие много ресурсов cpu, запускается каждые 5 минут. Происходит довольная частая смена обнаруженных элементов, один и тот же элемент редко обнаруживается более получаса подряд. Но как уже говорил Период сохранения потерянных ресурсов для этого обнаружения стоит 0 (должны сразу удаляться).

                  Ну и сами графики. Один процентное заполнение кеша за продолжительный интервал времени(степень наклона графика зависела от выставленного размера кеша и количества серверов, где использовалось LLD, скачки наверх это перехапуски сервера забикса) и второй абсолютные значения использования кеша за последние несколько дней(постоянный рост без каких бы то ни было спадов).
                  Attached Files
                  Last edited by bga83; 22-08-2013, 07:43. Reason: опечатка

                  Comment

                  • bga83
                    Senior Member
                    • Sep 2011
                    • 268

                    #10
                    Значения TrendCacheSize равного 128M не хватило. Как видно на графике свободное место в кеше постепенно, но все же закончилось. Причем что интересно вылетел сервер в момент когда свободно в кеше было еще порядка 15М, пытаясь выделить несколько больше.
                    Code:
                     17297:20130928:073834.166 __mem_malloc: skipped 1 asked 18113192 skip_min 15878160 skip_max 15878160
                     17297:20130928:073834.250 __mem_malloc: skipped 2 asked 18113192 skip_min 12075416 skip_max 15878160
                    В итоге просто задал максимально возможный размер этого кеша, равный 1G. По идее должно хватить при сохранении нынешней тенденции расходования места почти на год. А за этот интервал времени всяко найдутся причины для перезапуска. Ну и буду ждать новых обновлений, в описании исправлений текущих версий не нашел ничего что бы было близко к мой проблеме.
                    Attached Files
                    Last edited by bga83; 30-09-2013, 09:05. Reason: Опечатка

                    Comment

                    Working...