Ad Widget

Collapse

SLA доступности узлов

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Hell Berrel
    Junior Member
    • Oct 2024
    • 9

    #1

    SLA доступности узлов

    Приветствую коллеги

    Есть 45 узлов, нужно получить отчет по доступности, пингуются или нет. + тестовый узел на столе
    Я так понимаю, SLA делает это нормально. Настроил по chatgpt, но что-то не совсем понятно как это работает. Его предложение 1 сервис = 1 узел, 1 общий SLA
    Настройки такие. Сделал 46 сервисов Availability
    Click image for larger version

Name:	image.png
Views:	30
Size:	20.3 KB
ID:	510999
    Click image for larger version

Name:	image.png
Views:	22
Size:	7.6 KB
ID:	511000
    сервисы выглядят так - все остальные зеленые в настройках имеют problem tags с host=имя_узла. На красной показываются проблемы вообще с других узлов. Если добавляю в тестовый узел problem tags с host=имя_узла, оно вообще прекращает показывать перерывы в работе. Хотя само устройство отключаю от сети и проблема в дашборде появляется и исчезает как появляется сеть.
    Click image for larger version

Name:	image.png
Views:	16
Size:	8.2 KB
ID:	511001
    scope.availability на Network Generic Device by SNMP: Network Generic Device: Unavailable by ICMP ping присутствует.
    ​​Click image for larger version

Name:	image.png
Views:	22
Size:	22.1 KB
ID:	511002
    Click image for larger version

Name:	image.png
Views:	17
Size:	12.0 KB
ID:	511003
    и общий репорт показывает 100%, хотя там куча неработающих​ хостов

    ​Я вообще правильно это делаю? Судя по репорту, это несколько не то.
  • Hell Berrel
    Junior Member
    • Oct 2024
    • 9

    #2
    ps: исправил ошибку в слове availability, что-то заработало
    Click image for larger version

Name:	image.png
Views:	12
Size:	75.6 KB
ID:	511009
    на желтых узлах есть в проблемах host, на зеленых нету, и вот эти сообщения с пингами это сообщения вообще с других узлов локальной сети

    Comment

    • Hell Berrel
      Junior Member
      • Oct 2024
      • 9

      #3
      А сам отчет как-то непонятно выглядит
      Есть куча хостов, которые или совсем не включались, или на некоторое время пропадали пинги.
      Click image for larger version

Name:	image.png
Views:	12
Size:	48.5 KB
ID:	511011

      Comment

      • Kos
        Senior Member
        Zabbix Certified SpecialistZabbix Certified Professional
        • Aug 2015
        • 3414

        #4
        Извините, что отсылаю к документации, но я бы в первую очередь рекомендовал бы почитать этот раздел (ссылка). Там ещё три подраздела, включая примеры.

        Из вещей, которые неочевидны, я бы отметил следующие:
        • В настройках услуг (services) есть теги услуг и теги проблем. Не надо их путать, и лучше для наглядности использовать разные имена тегов.
          • Теги услуг настраиваются на вкладке "Tags" и помечают саму услугу. Они служат для связи этой услуги с действиями (Actions, что, впрочем используется редко) и с объектами SLA (а вот это уже будет использоваться наверняка).
          • Теги проблем используются на основной вкладке (Service, секция "Problem tags") и используются, чтобы связать с этой услугой конкретные проблемы. Они используются только для услуг самого нижнего уровня (если у вас есть дерево услуг). Например, вы хотите сделать дерево услуг, где на первом уровне будет одна общая услуга "Hosts availability", а на втором (под ней) - услуги по доступности конкретных хостов (скажем, "Host <ИмяХоста> availability" - и таких 45 штук, по одной на каждый хост). Тогда у первой из этих услуг (которая на первом уровне) не будет ни тегов проблем, ни поля "Parent services", а у каждой из 45 услуг второго уровня в поле "Parent services" будет ссылка на услугу "Hosts availability", а также указаны теги проблем (т.е. те теги, которые идентифицируют конкретную проблему на конкретном хосте).
        • Проблемы, которые вы отслеживаете, должны реально иметь нужные теги. Если у вас при недоступности хоста срабатывает триггер "Unavailable by ICMP ping", генерирующий проблему, то у этой проблемы должны быть соответствующие теги. Если таких тегов нет, то и услуга отслеживаться не будет. Если там есть только один тег, одинаковый для всех хостов (например, "scope: availability"), но нет тегов, позволяющих идентифицировать конкретный хост, то у вас не будет возможности отслеживать конкретную услугу именно для этого хоста.

        Comment

        • Hell Berrel
          Junior Member
          • Oct 2024
          • 9

          #5
          Спасибо за наводку, просто в доке не совсем понятно было.
          Сейчас тестирую с узлом на столе, отключаю/включаю ему сеть.
          Я правильно понимаю, что на host в триггере
          High / PROBLEM / Network Generic Device by SNMP: Network Generic Device: Unavailable by ICMP ping / max(/RUTX11/icmpping,#3)=0 / Enabled / scope:availability добавил ServiceICMP:RUTX11_ICMP_down и для идентификации узла и для отслеживания именно данной проблемы
          Далее настроил службу
          Click image for larger version

Name:	image.png
Views:	8
Size:	20.1 KB
ID:	511049Click image for larger version

Name:	image.png
Views:	8
Size:	7.9 KB
ID:	511050
          И SLA
          Click image for larger version

Name:	image.png
Views:	8
Size:	22.3 KB
ID:	511051
          Теперь когда сеть подключена, считается Uptime , когда выключена Downtime
          Click image for larger version

Name:	image.png
Views:	8
Size:	20.4 KB
ID:	511052
          Правильно получилось?​​​​

          Comment

          • Kos
            Senior Member
            Zabbix Certified SpecialistZabbix Certified Professional
            • Aug 2015
            • 3414

            #6
            Вроде бы, всё верно.
            Единственное замечание - не обязательно создавать по отдельному объекту SLA на каждую услугу. Если параметры SLA (а именно: порог SLO и расписание) для отслеживаемых услуг совпадают, то достаточно одного объекта SLA, которым будут пользоваться все услуги (services).

            Comment

            Working...