Ad Widget

Collapse

Вопрос по шаблонам и мониторингу базовых показателей

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • DeniTornado
    Junior Member
    • Apr 2019
    • 22

    #1

    Вопрос по шаблонам и мониторингу базовых показателей

    Доброго дня коллеги! Вчера установил версия 4.2 пока разбираюсь, читаю доку и знакомлюсь с функциями.
    Установил на тестовый сервер агента. В узлы сети добавил этот сервер.

    Но непонятно сразу стало вот что:
    Есть группа серверов, на которых я хочу мониторить:
    1) Загрузку CPU
    2) RAM
    3) Доступность сервера, наверное по пингу
    4) Свободное место на диске C:\

    если какой-то монитор будет в критических показателях - CPU будет загружен или место кончается на диске или оперативку что-то заняло - слать письмо на почту
    Я увидел встроенный шаблон Template OS Windows. В нем куча всего, что он мониторит, разбито по группам. Мне же надо только, то что я указал выше. Как лучше поступить, чтобы не применять к серверу все эти элементы и триггеры:
    1) Создать свой шаблон "Базовые показатели сервера" и создать нужные элементы данных и триггеры в нем с нуля?
    2) Или можно как-то перенести (может скопировать - я пока не понял как так сделать) из встроенного шаблона в свой новый шаблон "Базовые показатели сервера"?
    3) Или же можно применить всю эту кучу показателей на сервер и просто удалить лишнее? Просто не пойму каким путем лучше пойти?

    И я так понимаю, чтобы я эти показатели потом мог наблюдать на графиках, то и графики отдельно создавать надо? Ну или как-то перенести из встроенного шаблона..

    Спасибо! Буду благодарен за помощь, а то пока что с мог запилить это проверку доступности сервера пингом агента, создав это вручную.
  • sadman
    Senior Member
    • Dec 2010
    • 1611

    #2
    Элемент данных можно перевести в состояние Disabled, например.

    Comment

    • lagavazzz
      Junior Member
      • Apr 2019
      • 21

      #3
      Пожалуй одним из самых удобных/быстрых способов будет создать свой шаблон в Configuration → Templates и кликнуть на Create template и просто скопировать в него нужные элементы данных из другого шаблона.

      Например, открыть Template OS Windows
      • Перейти в Items
      • выделить галочкой item 'Processor load' (или сразу все те которые нужно) из списка
      • выберите Copy ниже списка
      • выберите Ваш Template и нажмите copy
      • И потом привяжите Template к нужному Host'y

      Comment

      • DeniTornado
        Junior Member
        • Apr 2019
        • 22

        #4
        Спасибо за информацию. Сейчас разбираюсь с показателем графика нагрузки на CPU. Чтобы лучше разобраться в параметрах, решил пока руками поделать item-ы. Хочется понять суть.
        Решил начать с загрузки проца в %. Хочется мерить этот показатель и если загрузка проца будет держаться в течении 10 минут на 90-100% - прислать на почту письмо.
        Пока сделал вот такой элемент с плавающей точкой system.cpu.util[,,avg5] (а то с целой точкой он не работает походу). Начали собираться показатели. Этой строкой я ведь указал собирать каждые 5 минут показание с загрузки CPU? Начал рисоваться график, но мне не понятно почему он в нижней части начинается с 35% а вверху 50%. Минут через 10 вверху стало 70%, с низу не поменялось. Это он просто так отображает потому что в момент сбора CPU% был загружен на 35%? А 100% сверху ему пока показывать не за чем, т.к. такой нагрузки еще не было?

        И чтобы работали оповещения мне теперь надо триггер сделать+действие?
        Спасибо!

        Comment

        • lagavazzz
          Junior Member
          • Apr 2019
          • 21

          #5
          Да, с целой точкой он не работает, тут можно посмотреть подробнее о том, какой элемент и как работает:

          http://www.zabbix.com/documentation/...zabbix_agent?s[]=cpu&s[]=load


          avg5 в данном случае это усреднение за 5 минут минут.

          Начинается он с первой полученной величины и пополняет график новыми полученными, и дальше уже оперирует исходя из них, но в настройках узла можно создать и своё график указав минимальую и максимальную величины.

          Для этого перейдите в
          • Настройка → Узлы сети (или Шаблоны)
          • Нажмите на Графики в строке с желаемым узлом
          И для оповещений да, можно создать триггер и добавить действие, но перед этим Вам так же нужно настроить способы оповещений в разделе Администрирование.

          Comment

          • DeniTornado
            Junior Member
            • Apr 2019
            • 22

            #6
            Большое спасибо. Буду дальше конечно копать и разбираться, но на моем примере можете пож-та на вскидку подсказать чего я не так делаю?
            Итак:
            Есть шаблон. В нем 4 элемента данных. Один из них назвал Free space on system disk = vfs.fs.size[C:,free] (с плавающей точкой). Скопировал этот item из встроеного шаблона и переименовал для себя. Единица измерения=B. интервал обновления 300мс. Вроде работает и показывает мне каждые 5 минут сколько на системном диске осталось места.
            Теперь делаю триггер. Чтобы он срабатывал, когда на диске останется меньше либо равно 10 Гб. Триггер - {Template_Basic indicators for servers:vfs.fs.size[C:,free].last()}<10. Сейчас на сервере 36Гб свободного места. И триггер показывается зеленым цветом в Мониторинг-Обзор.

            Чтобы проверить его работу я решил изменить условие и установил {Template_Basic indicators for servers:vfs.fs.size[C:,free].last()}<40 - т.е. если места на диске стало меньше 40Гб, то аларм. Но триггер все равно зеленый! Что-то не срабатывает. Или я накрутил с показателями чего-то не то.

            P.S. Единственная догадка, может быть, раз у меня элемент данных результирует в "В"-байты, а я в триггере указываю просто 40, может он думает что это 40 байт, а не 40 Гб и мне тут нужно другое значение подставлять переводить Гб в байты?
            Last edited by DeniTornado; 29-04-2019, 16:10.

            Comment

            • lagavazzz
              Junior Member
              • Apr 2019
              • 21

              #7
              Если триггер должен реагировать на количество свободного места, то необходимо указывать величину на которую триггер среагирует, например:

              {Template_Basic indicators for servers:vfs.fs.size[C:,free].last()}<10G

              Comment

              • DeniTornado
                Junior Member
                • Apr 2019
                • 22

                #8
                Originally posted by lagavazzz
                Если триггер должен реагировать на количество свободного места, то необходимо указывать величину на которую триггер среагирует, например:

                {Template_Basic indicators for servers:vfs.fs.size[C:,free].last()}<10G
                Да, спасибо)! Буквы G не хватало, теперь триггер реагирует. Клево спасибо! Пошел дальше крутить)

                Comment

                • lagavazzz
                  Junior Member
                  • Apr 2019
                  • 21

                  #9
                  Рад помочь! )

                  Comment

                  • DeniTornado
                    Junior Member
                    • Apr 2019
                    • 22

                    #10
                    Коллега, а подскажите пож-та еще такие моменты, если не затруднит:
                    1) Отчеты заработали, класс! Уведомлялки стали прилетать (правда пока одна )) про свободное место на диске). Можно ли вставить в отчеты свой русско-язычный текст?
                    К примеру сейчас прилетел вот такой отчет, в настройках я указал HTML формат:

                    Problem started at 07:03:47 on 2019.04.30 Problem name: Free Space System Drive Host: SRV-TS-01 Severity: Warning Original problem ID: 44
                    ....
                    Problem has been resolved at 07:06:47 on 2019.04.30 Problem name: Free Space System Drive Host: SRV-TS-01 Severity: Warning Original problem ID: 44

                    а) как-то руссифицировать?
                    б) вставлять в отчеты какие-то данные? К примеру сработал триггер, <10G. И чтобы в отчете это тоже указывалось, может красивый график круговой - типа одним цветом занятое место, другим свободное или что-то подобное?
                    в) На сервере Zabbix время и дата выставлено точное по Москве+ntpd. Но как видно из отчета указывается почему то какие-то 07:03:47 и т.п. - разница в 2 часа (

                    2) Если несложно, то подскажите пож-та нужное направление. Вот я замеряю загруженность проца - system.cpu.util[,,avg5]. Это пока просто элемент данных триггер и действие на него еще не делал. Единица измерения %, интервал обн. 30сек. Получается что каждые 30 сек. замеряется текущая загрузка в %-ах CPU на сервере. А как бы так сделать, чтобы Zabbix прислал уведомление на почту, о высокой загрузке CPU, только в том случае если CPU%=95-100 не однократно, как он замеряет один раз в 30 сек., а в том случае если загрузка CPU%=90-100 будет в течении 10-15 минут. Ну т.е. не кратковременный всплеск о котором надо сообщать, а реально что-то долго грузит сервак?
                    Спасибо!

                    Comment

                    • lagavazzz
                      Junior Member
                      • Apr 2019
                      • 21

                      #11
                      Можно частично русифицировать оповещения, изменив текст который не входит в фигурные скобки.

                      График к сожалению в оповещение возможности вставить нет, но возможно добавлять допольнительные макросы с данными, полный список которых есть здесь

                      Что касается времени, проверье файл nano /etc/httpd/conf.d/zabbix.conf - указано ли в нём правильно timezone. По умолчани #php_value date.timezone Europe/Riga

                      Как пример, это может быть подобные триггер - {Template Basic:system.cpu.load[,avg1].avg(5m)}>90

                      В котором avg() как раз и указывает необходимый период времени

                      Примеры:
                      ⇒ avg(#5) → среднее значение за пять последних значений
                      ⇒ avg(1h) → среднее значение за час
                      ⇒ avg(1h,1d) → среднее значение за час днем ранее.

                      Здесь можно посмотреть подробнее:


                      Comment

                      • DeniTornado
                        Junior Member
                        • Apr 2019
                        • 22

                        #12
                        Спасибо. Поразбираюсь, а вот с временем непонятно пока. Таймзону я установил еще в момент установки сервера Zabbix. Сейчас проверил конфиг
                        <Directory "/usr/share/zabbix">
                        Options FollowSymLinks
                        AllowOverride None
                        Order allow,deny
                        Allow from all

                        <IfModule mod_php5.c>
                        php_value max_execution_time 300
                        php_value memory_limit 128M
                        php_value post_max_size 16M
                        php_value upload_max_filesize 2M
                        php_value max_input_time 300
                        php_value max_input_vars 10000
                        php_value always_populate_raw_post_data -1
                        php_value date.timezone Europe/Moscow
                        </IfModule>
                        <IfModule mod_php7.c>
                        php_value max_execution_time 300
                        php_value memory_limit 128M
                        php_value post_max_size 16M
                        php_value upload_max_filesize 2M
                        php_value max_input_time 300
                        php_value max_input_vars 10000
                        php_value always_populate_raw_post_data -1
                        php_value date.timezone Europe/Moscow
                        </IfModule>
                        </Directory>

                        на всякий случай еще раз рестартанул апач2! Симитировал эскалацию события по месту на жестком диске.
                        Эскалация по Москве в 11:34, а отчет пришел вот такой
                        Problem started at 08:34:47 on 2019.04.30 Problem name: Free Space System Drive Host: SRV-TS-01 Severity: Warning Original problem ID: 46

                        Comment

                        • DeniTornado
                          Junior Member
                          • Apr 2019
                          • 22

                          #13
                          Тут у меня дело дошло до файловых серверов. К примеру есть файл-сервер А, и есть файл-сервер Б.
                          В идеале хочу на них мониторить свободное место на всех дисках и очередь диска.
                          Но! На сервер А диски называются c:, d:, e:, а на сервере Б диски c:, f: и h:.
                          Получается раз буквы дисков различаются, то для вычисления свободного места как на моем прошлом примере выше, уже буквы не подставить чтобы один элемент данных я мог добавить в свой новый шаблон "Файловые серверы" и он работал на обоих файл-серверах? Надо для каждого в отдельности делать или шаблон или еще один элемент данных?
                          Спасибо

                          Comment

                          • DeniTornado
                            Junior Member
                            • Apr 2019
                            • 22

                            #14
                            Знаю много чего наспрашивал не дождавшись ответа, но я так, пока сам ищу информацию по интернету и на сайте Zabbix-а, надеюсь что и тут чего полезного посоветуют ). Заранее спасибо!
                            Как в бест практикс лучше мониторить в моем случае активное оборудование? Мне надо будет мониторить доступность шлюзов и коммутаторов в филиалах, а именно:
                            а) доступно ли вообще активное оборудование. Т.е. как лучше делать проверки, просто пингом из Zabbix?
                            б) смотреть скорость канала связи между главным офисом (нами) и филиалами. Я так понимаю, это уже какими-то стандартными функциями не глянуть, надо лезть в дебри SNMP? Настроить его на каждом шлюзу и коммутаторе и потом прикручивать к мониторингу?
                            Просто интересно как лучше сделать такой мониторинг и чем это делать в нашем Zabbix).
                            Спасибо!

                            Comment

                            • DeniTornado
                              Junior Member
                              • Apr 2019
                              • 22

                              #15
                              Коллеги доброго! Подскажите пож-та, что я делаю не так.
                              Хочу видеть показания пинга через элемент данных icmppingsec от активного оборудования в филиалах+если пинг пропадет, то эта функция возвращает 0 и это можно в триггере расценить как проблему, если я прав. С филиалами у нас ВПН и я могу спокойно пинговать из обычной командной строки Windows удаленные шлюзы.
                              1) дает пинг 2,615 мс
                              2) дает 13-16,513 мс
                              3) дает 2,312 мс
                              4) дает 0,345 мс

                              Сделал на все три шлюза элементы данных Простая проверка-icmppingsec, с плавающей точкой, измерение данных в "s"
                              И в последних данных вижу другие показания
                              1) дает 18,3 мс
                              2) дает 58 мс.
                              3) дает 14 мс
                              4) дает 8мс
                              Короче в разы больше.
                              Потом проходит 1-2 мин. и показания вроде как становятся нормальными - такими как я из Windows по пингу их вижу. Но потом обновляются Последние данные (обновление 1 раз в 30 сек.) и опять завышенные значения, хотя в это время у меня пингуется из командной строки Windows и значения не скачут как в Zabbix.

                              С чем это может быть связано? Zabbix сервер пока не нагружен, от силы мониторится 5 узлов сети с 4-5 датчиками

                              Comment

                              Working...