Добрый день всем!
Может кто-то разобрался в мониторинге Battery Pack (далее BP) на APC (если честно, то там сам черт ногу сломит)? Требуется пояснительная бригада... Извиняюсь сперва будет немного "воды"
Суть.
1. Взял готовый шаблон APC с git zabbix. Всегда стараюсь выдергивать из них нужное мне в свои шаблоны, заодно анализируя и лучше понимая сам вопрос - "что я мониторю и как это работает/срабатывает"
2. Встал вопрос по мониторингу BP (MIB PowerNet). Для этого нужно смотреть в раздел - .iso.org.dod.internet.private.enterprises.apc.prod ucts.hardware.ups.upsBattery.upsHighPrecBattery.up sHighPrecBatteryPacks (.1.3.6.1.4.1.318.1.1.1.2.3.10)
И тут начинаются уже интересности, так как по факту есть два схожих раздела:
upsHighPrecBatteryPackTable (.1.3.6.1.4.1.318.1.1.1.2.3.10.2)
upsHighPrecBatteryPackOnlyTable (.1.3.6.1.4.1.318.1.1.1.2.3.10.4)
Не до конца понял их суть, но вроде как первый более детальный и видит BP как два отдельных логических устройства (обозначим этот режим как - "детальный").
Второй вроде как "смотрит" на BP как на одно логическое устройство (обозначим этот режим как - "общий").
Это легко коррелируется с выводами например по серийному номеру:
в первом случае это:
upsHighPrecBatteryPackSerialNumber.1.1.1 7A2004L38294
upsHighPrecBatteryPackSerialNumber.1.1.2 7A2004L38294
во втором случае это:
upsHighPrecBatteryPackOnlySerialNumber.1.1 7A2004L38294
В веб интерфейсе как бы тоже такой же подход. Сперва отображается статус BP "общий", потом, если провалиться в него, то видно BP как два логических устройства - "детальный".
При этом интересующие нас статусы отличаются. Для примера и понимания: "Общее здоровье - требует внимания. Детально - правая рука (Ок), левая рука (Bad)"
Решил, что надо мониторить детальный раздел с разделением на два логических устройства.
а) Интересует параметр - upsHighPrecBatteryPackCartridgeHealth (.1.3.6.1.4.1.318.1.1.1.2.3.10.2.1.7)
Его описание: "The battery cartridge health. bit 0 Battery lifetime okay bit 1 Battery lifetime near end, order replacement cartridge bit 2 Battery lifetime exceeded, replace battery bit 3 Battery lifetime near end acknowledged, order replacement cartridge bit 4 Battery lifetime exceeded acknowledged, replace battery bit 5 Battery measured lifetime near end, order replacement cartridge bit 6 Battery measured lifetime near end acknowledged, order replacement cartridge "
Получаемое значение: 1000000000000000
И вот собственно первый вопрос. Что это и как это интерпретировать?
Потому что из шаблона триггер срабатывает при таком условии - find(/02R04-UPS.18.28/battery.pack.cartridge_health[upsHighPrecBatteryPackCartridgeHealth.1.1],,"regexp","^(0)[0|1]{15}$")=1
В данном случае он не сработает, потому что в выводе первый символ стоит 1. Если бы первый символ был 0, то сработал, и вообще срабатывает, если первый символ 0, остальные любая комбинация.
Никак не могу найти корреляцию/связь между описанием параметра <-> настройкой триггера из шаблона <-> логикой
б) Интересует параметр - upsHighPrecBatteryPackCartridgeStatus (..1.3.6.1.4.1.318.1.1.1.2.3.10.2.1.10)
Его описание: "The battery cartridge status. bit 0 Disconnected bit 1 Overvoltage bit 2 NeedsReplacement bit 3 OvertemperatureCritical bit 4 Charger bit 5 TemperatureSensor bit 6 BusSoftStart bit 7 OvertemperatureWarning bit 8 GeneralError bit 9 Communication bit 10 DisconnectedFrame bit 11 FirmwareMismatch"
Получаемое значение: 0010000000000000
Триггер: find(/02R04-UPS.18.28/battery.pack.status[upsHighPrecBatteryPackCartridgeStatus.1.1],,"regexp","^(0{16})$")=0
Он сработает. Потому что срабатывает на любую комбинацию кроме всех нулей.
Никак опять же не могу найти корреляцию/связь между описанием параметра <-> настройкой триггера из шаблона <-> логикой
Может кто-то разбирался в этом? Кто-то же написал этот шаблон и положил в git, значит вложил какую-то логику в триггеры, почему они срабатывают именно так (при таких условиях), а не иначе? Как интерпретировать логику срабатывания с описанием параметра, и в особенности с этими битами?
Может кто-то разобрался в мониторинге Battery Pack (далее BP) на APC (если честно, то там сам черт ногу сломит)? Требуется пояснительная бригада... Извиняюсь сперва будет немного "воды"
Суть.
1. Взял готовый шаблон APC с git zabbix. Всегда стараюсь выдергивать из них нужное мне в свои шаблоны, заодно анализируя и лучше понимая сам вопрос - "что я мониторю и как это работает/срабатывает"
2. Встал вопрос по мониторингу BP (MIB PowerNet). Для этого нужно смотреть в раздел - .iso.org.dod.internet.private.enterprises.apc.prod ucts.hardware.ups.upsBattery.upsHighPrecBattery.up sHighPrecBatteryPacks (.1.3.6.1.4.1.318.1.1.1.2.3.10)
И тут начинаются уже интересности, так как по факту есть два схожих раздела:
upsHighPrecBatteryPackTable (.1.3.6.1.4.1.318.1.1.1.2.3.10.2)
upsHighPrecBatteryPackOnlyTable (.1.3.6.1.4.1.318.1.1.1.2.3.10.4)
Не до конца понял их суть, но вроде как первый более детальный и видит BP как два отдельных логических устройства (обозначим этот режим как - "детальный").
Второй вроде как "смотрит" на BP как на одно логическое устройство (обозначим этот режим как - "общий").
Это легко коррелируется с выводами например по серийному номеру:
в первом случае это:
upsHighPrecBatteryPackSerialNumber.1.1.1 7A2004L38294
upsHighPrecBatteryPackSerialNumber.1.1.2 7A2004L38294
во втором случае это:
upsHighPrecBatteryPackOnlySerialNumber.1.1 7A2004L38294
В веб интерфейсе как бы тоже такой же подход. Сперва отображается статус BP "общий", потом, если провалиться в него, то видно BP как два логических устройства - "детальный".
При этом интересующие нас статусы отличаются. Для примера и понимания: "Общее здоровье - требует внимания. Детально - правая рука (Ок), левая рука (Bad)"
Решил, что надо мониторить детальный раздел с разделением на два логических устройства.
а) Интересует параметр - upsHighPrecBatteryPackCartridgeHealth (.1.3.6.1.4.1.318.1.1.1.2.3.10.2.1.7)
Его описание: "The battery cartridge health. bit 0 Battery lifetime okay bit 1 Battery lifetime near end, order replacement cartridge bit 2 Battery lifetime exceeded, replace battery bit 3 Battery lifetime near end acknowledged, order replacement cartridge bit 4 Battery lifetime exceeded acknowledged, replace battery bit 5 Battery measured lifetime near end, order replacement cartridge bit 6 Battery measured lifetime near end acknowledged, order replacement cartridge "
Получаемое значение: 1000000000000000
И вот собственно первый вопрос. Что это и как это интерпретировать?
Потому что из шаблона триггер срабатывает при таком условии - find(/02R04-UPS.18.28/battery.pack.cartridge_health[upsHighPrecBatteryPackCartridgeHealth.1.1],,"regexp","^(0)[0|1]{15}$")=1
В данном случае он не сработает, потому что в выводе первый символ стоит 1. Если бы первый символ был 0, то сработал, и вообще срабатывает, если первый символ 0, остальные любая комбинация.
Никак не могу найти корреляцию/связь между описанием параметра <-> настройкой триггера из шаблона <-> логикой
б) Интересует параметр - upsHighPrecBatteryPackCartridgeStatus (..1.3.6.1.4.1.318.1.1.1.2.3.10.2.1.10)
Его описание: "The battery cartridge status. bit 0 Disconnected bit 1 Overvoltage bit 2 NeedsReplacement bit 3 OvertemperatureCritical bit 4 Charger bit 5 TemperatureSensor bit 6 BusSoftStart bit 7 OvertemperatureWarning bit 8 GeneralError bit 9 Communication bit 10 DisconnectedFrame bit 11 FirmwareMismatch"
Получаемое значение: 0010000000000000
Триггер: find(/02R04-UPS.18.28/battery.pack.status[upsHighPrecBatteryPackCartridgeStatus.1.1],,"regexp","^(0{16})$")=0
Он сработает. Потому что срабатывает на любую комбинацию кроме всех нулей.
Никак опять же не могу найти корреляцию/связь между описанием параметра <-> настройкой триггера из шаблона <-> логикой
Может кто-то разбирался в этом? Кто-то же написал этот шаблон и положил в git, значит вложил какую-то логику в триггеры, почему они срабатывают именно так (при таких условиях), а не иначе? Как интерпретировать логику срабатывания с описанием параметра, и в особенности с этими битами?
Comment