#4 Comprobaciones de IPMI

Visión general

Puede monitorear el estado y la disponibilidad de Intelligent Platform Dispositivos de interfaz de administración (IPMI) en Zabbix. Para realizar comprobaciones de IPMI El servidor Zabbix debe ser inicialmente configurado con Soporte IPMI.

IPMI es una interfaz estandarizada para "luces apagadas" remotas o Gestión "fuera de banda" de los sistemas informáticos. Permite monitorear estado del hardware directamente desde la llamada gestión "fuera de banda" tarjetas, independientemente del sistema operativo o de si la máquina está encendido en absoluto.

El monitoreo Zabbix IPMI solo funciona para dispositivos que tienen soporte IPMI (HP iLO, DELL DRAC, IBM RSA, Sun SSP, etc.).

Desde Zabbix 3.4, se ha agregado un nuevo proceso de administrador de IPMI a la programación Comprobaciones de IPMI por sondeadores de IPMI. Ahora un host siempre es consultado por un solo Sondeador de IPMI a la vez, lo que reduce la cantidad de conexiones abiertas a BMC controladores Con esos cambios, es seguro aumentar la cantidad de IPMI encuestadores sin preocuparse por la sobrecarga del controlador BMC. El IPMI El proceso del administrador se inicia automáticamente cuando al menos un sondeador de IPMI Está empezado.

Consulte también problemas conocidos para verificaciones de IPMI.

Configuración

Configuración del host

Se debe configurar un host para procesar comprobaciones de IPMI. Una interfaz IPMI debe agregarse, con los respectivos números de IP y puerto, e IPMI se deben definir los parámetros de autenticación.

Consulte la configuración de hosts para obtener más información. detalles.

Configuración del servidor

De forma predeterminada, el servidor Zabbix no está configurado para iniciar ninguna IPMI sondeadores, por lo que cualquier elemento IPMI agregado no funcionará. Para cambiar esto, abra el Archivo de configuración del servidor Zabbix (zabbix_server.conf) como raíz y busca la siguiente línea:

# InicioIPMIPollers=0

Descoméntalo y establece el conteo de sondeadores en, digamos, 3, para que diga:

InicioIPMIPollers=3

Guarde el archivo y luego reinicie zabbix_server.

Configuración del elemento

Al configurar un elemento en un nivel de host:

  • Seleccione 'Agente de IPMI' como Tipo
  • Ingrese un elemento clave que sea único dentro del host (digamos, ipmi.fan.rpm)
  • Para Interfaz de host, seleccione la interfaz IPMI relevante (IP y Puerto). Tenga en cuenta que debe existir una interfaz IPMI en el host.
  • Especifique el sensor IPMI (por ejemplo, 'FAN MOD 1A RPM' en Dell Poweredge) para recuperar la métrica. Por defecto, la identificación del sensor debe especificarse. También es posible utilizar prefijos antes del valor:
    • id: - para especificar el ID del sensor;
    • name: - para especificar el nombre completo del sensor. Esto puede ser útil en situaciones en las que los sensores solo se pueden distinguir especificando el nombre completo.
  • Seleccione el tipo de información respectivo ('Numérico (flotante)' en este caso; para sensores discretos - 'Numérico (sin signo)'), unidades (la mayoría probablemente 'rpm') y cualquier otro atributo de artículo requerido
Comprobaciones admitidas

La siguiente tabla describe los elementos incorporados que son compatibles con IPMI cheques de agentes.

Clave de artículo
Descripción Valor de retorno Comentarios
ipmi.get
Información relacionada con el sensor IPMI. Objeto JSON Este elemento se puede usar para el descubrimiento de sensores IPMI.
Compatible desde Zabbix 5.0.0 .

Tiempo de espera y terminación de la sesión

Los tiempos de espera de los mensajes de IPMI y los recuentos de reintentos se definen en la biblioteca OpenIPMI. Debido al diseño actual de OpenIPMI, no es posible realizar estos valores configurables en Zabbix, ni a nivel de interfaz ni de elemento.

El tiempo de espera de inactividad de la sesión de IPMI para LAN es de 60 +/-3 segundos. Actualmente no es posible implementar el envío periódico de Activate Session comando con OpenIPMI. Si no hay comprobaciones de elementos IPMI de Zabbix a un BMC en particular por más del tiempo de espera de la sesión configurado en BMC y luego la siguiente comprobación de IPMI después de que expire el tiempo de espera se agotará debido a tiempos de espera de mensajes individuales, reintentos o errores de recepción. Después de eso, un nuevo se abre la sesión y se inicia una nueva exploración completa del BMC. Si tu quieres Para evitar escaneos innecesarios del BMC, se recomienda configurar el IPMI intervalo de sondeo de elementos por debajo del tiempo de espera de inactividad de la sesión de IPMI configurado en BMC.

Notas sobre sensores discretos IPMI

Para encontrar sensores en un equipo, inicie el servidor Zabbix con DebugLevel=4 activado. Espere unos minutos y busque registros de descubrimiento de sensores en el archivo de registro del servidor Zabbix:

$ grep 'Added sensor' zabbix_server.log
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:7 id:'CATERR' reading_type:0x3 ('discrete_state') type:0x7 ('processor') full_name:'(r0.32.3.0).CATERR'
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'CPU Therm Trip' reading_type:0x3 ('discrete_state') type:0x1 ('temperature') full_name:'(7.1).CPU Therm Trip'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'System Event Log' reading_type:0x6f ('sensor specific') type:0x10 ('event_logging_disabled') full_name:'(7.1).System Event Log'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'PhysicalSecurity' reading_type:0x6f ('sensor specific') type:0x5 ('physical_security') full_name:'(23.1).PhysicalSecurity'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'IPMI Watchdog' reading_type:0x6f ('sensor specific') type:0x23 ('watchdog_2') full_name:'(7.7).IPMI Watchdog'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'Power Unit Stat' reading_type:0x6f ('sensor specific') type:0x9 ('power_unit') full_name:'(21.1).Power Unit Stat'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Ctrl %' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.1).P1 Therm Ctrl %'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.2).P1 Therm Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 2' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 2'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 3' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 3'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'P1 Mem Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).P1 Mem Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Front Panel Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Front Panel Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'Baseboard Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Baseboard Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +5.0V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +5.0V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +3.3V STBY' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V STBY'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +3.3V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.5V P1 DDR3' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.5V P1 DDR3'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.1V P1 Vccp' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.1V P1 Vccp'
       8358:20130318:111122.174 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +1.05V PCH' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.05V PCH'

Para decodificar los tipos y estados de los sensores IPMI, obtenga una copia de las especificaciones IPMI 2.0 en http://www.intel.com/content/www/us/en/servers/ipmi/ipmi-specifications.html (En el momento de escribir este artículo, el documento más reciente era <http://www.intel.com/content/dam/www/public/us/en/documents/product-briefs/ second-gen-interface-spec-v2.pdf>)

El primer parámetro para comenzar es "reading_type". Utilice la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" de las especificaciones para decodificar Código "lectura_tipo". La mayoría de los sensores en nuestro ejemplo tienen "reading_type:0x1" que significa sensor de "umbral". "Tabla 42-3, Sensores códigos de tipo" muestra que "tipo:0x1" significa sensor de temperatura, "tipo:0x2" - sensor de voltaje, "tipo:0x4" - Ventilador, etc. Los sensores de umbral a veces son llamados sensores "analógicos" ya que miden parámetros continuos como temperatura, voltaje, revoluciones por minuto.

Otro ejemplo: un sensor con "lectura_tipo:0x3". "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" dice que los códigos de tipo de lectura 02h-0Ch significa sensor "discreto genérico". Los sensores discretos tienen hasta 15 posibles estados (en otras palabras, hasta 15 bits significativos). Por ejemplo, para sensor 'CATERR' con "tipo:0x7" la "Tabla 42-3, Códigos de tipo de sensor" muestra que este tipo significa "Procesador" y el significado de individuo bits es: 00h (el bit menos significativo) - IERR, 01h - Disparo térmico, etc.

Hay pocos sensores con "reading_type:0x6f" en nuestro ejemplo. Para estos sensores, la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" recomienda utilizar la "Tabla 42-3, Códigos de tipo de sensor" para decodificar el significado de los bits. Por ejemplo, el sensor 'Power Unit Stat' tiene el tipo "tipo:0x9", lo que significa "Unidad de poder". Offset 00h significa "Apagado/Apagado". En otras palabras si el bit menos significativo es 1, entonces el servidor se apaga. para probar esto bit, el bity función con Se puede utilizar la máscara '1'. La expresión del iniciador podría ser como

bitand(last(/www.example.com/Power Unit Stat,#1),1)=1

para advertir sobre el apagado del servidor.

Notas sobre nombres de sensores discretos en OpenIPMI-2.0.16, 2.0.17, 2.0.18 y 2.0.19

Nombres de sensores discretos en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 a menudo tener un "0" adicional (o algún otro dígito o letra) adjunto al final. Por ejemplo, mientras ipmitool y OpenIPMI-2.0.19 muestran el sensor nombres como "PhysicalSecurity" o "CATERR", en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 los nombres son "PhysicalSecurity0" o "CATERR0", respectivamente.

Al configurar un elemento de IPMI con el servidor Zabbix usando OpenIPMI-2.0.16, 2.0.17 y 2.0.18, use estos nombres que terminen en "0" en el sensor IPMI campo de elementos de agente de IPMI. Cuando su servidor Zabbix se actualiza a un nuevo Distribución de Linux, que utiliza OpenIPMI-2.0.19 (o posterior), elementos con estos sensores discretos de IPMI pasarán a ser "NO COMPATIBLES". Tienes que cambie sus nombres de sensor IPMI (elimine el '0' al final) y espere durante algún tiempo antes de que vuelvan a estar "Habilitados".

Notas sobre el umbral y la disponibilidad simultánea del sensor discreto

Algunos agentes de IPMI proporcionan un sensor de umbral y un sensor discreto bajo el mismo nombre. En las versiones de Zabbix anteriores a 2.2.8 y 2.4.3, el se eligió el primer sensor proporcionado. Desde las versiones 2.2.8 y 2.4.3, siempre se da preferencia al sensor de umbral.

Notas sobre la terminación de la conexión

Si no se realizan comprobaciones de IPMI (por cualquier motivo: todos los elementos de IPMI del host deshabilitado/no compatible, host deshabilitado/eliminado, host en mantenimiento, etc.) la conexión IPMI terminará desde el servidor Zabbix o proxy en 3 a 4 horas dependiendo de la hora en que se inició el servidor/proxy Zabbix.