Ad Widget

Collapse

SLA Пользовательский дашбоард

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • exesition
    Senior Member
    • Nov 2019
    • 121

    #1

    SLA Пользовательский дашбоард

    Service Count Downtime SLA
    Server 137+2
    0d 1h 35m
    56,6%
    red (род. Server)
    0d 0h 30m
    12,6%
    green(род. Server)
    0d 0h 35m
    76,6%
    blue(род. Server)
    0d 1h 30m
    26,6%
    Routers 24+3
    0d 2h 35m
    60,6%
    red (род. Routers)
    0d 1h 30m
    56,6%
    green(род. Routers)
    0d 0h 30m
    90,6%
    blue(род. Routers)
    0d 0h 5m
    99,6%
    Прилетел очередной нетривиальный проект
    Необходимо организовать мониторинг сервисов по методике SLA. Планируется отслеживать доступность роутеров, серверов, сервисов внутри компании. Стандартный Dashoboard предоставляемый в zabbix не совсем устраивает. После продолжительного времени пришли к выводу что необходимо выводить для всеобщего обозрения следующий дашборд (см таблицу)

    1 колонка - Service
    Здесь за основу по сути пойдет то что мы видим в "Услуги" название родителя и его "child". Здесь в целом все ясно.

    2 Колонка -Count.
    Здесь хотят видеть общее количество узлов которое мониторятся (тоесть, допустим серверов было 120 на понедельник, в течение недели добавили еще 2 и после добавления в систему нам показывается этот прирост).

    3.Колонка Downtime по сути эти данные есть если провалиться в услугах по любому из дереву или его child

    4. Колонка - SLA
    Cобственное само SLA... Хорошо бы если в zabbix можно было задавать исходное значение. Допустим за месяц должно быть не больше 40 часов простоя и SLA считалось от этого значения.

    Кто либо делал похожие проекты может есть наработки?
    Готов услышать советы или наработки можно и на платной основе
  • exesition
    Senior Member
    • Nov 2019
    • 121

    #2
    Проблема несколько изменилась. Визуализация будет выполняться средствами Grafana
    Собственно появился вопрос

    У нас есть группа узлов сети в которой находится N-ое количество узлов. Допустим их 5.
    1. Как можно в графане вывести счетчик(count) количества узлов в группе узлов сети?
    2. Как можно сделать сравнение по времени допустим с прошлым месяцем, чтобы у нас отображался прирост или снижение количества узлов?


    По документации есть запрос по api и зная groupid можно подсчитать количество уникальных значений hostid, но вот как это сделать в графане запрос не могу понять

    Comment

    • exesition
      Senior Member
      • Nov 2019
      • 121

      #3
      Так, удалось выяснить что графана умеет работать с плагином заббикса и получать данные из IT service.
      1. Решилось. Количество узлов удалось получить прямым запросом в БД (хотя хотелось бы через API
      2. Все еще актуально

      Возник вопрос того каким образом идет подсчет SLA. Почему то в графане не совсем верно рассчитывает сам SLA, down time, problem time

      Comment

      Working...