#4 Comprobaciones de IPMI
Puede monitorear el estado y la disponibilidad de Intelligent Platform Dispositivos de interfaz de gestión (IPMI) en Zabbix. Para realizar comprobaciones de IPMI El servidor Zabbix debe estar inicialmente configurado con Soporte IPMI.
IPMI es una interfaz estandarizada para "apagado de luces" remoto o Gestión "fuera de banda" de sistemas informáticos. Permite monitorear estado del hardware directamente desde la llamada gestión "fuera de banda" tarjetas, independientemente del sistema operativo o de si la máquina está encendido en absoluto.
La monitorización IPMI de Zabbix funciona solo para dispositivos compatibles con IPMI (HP iLO, DELL DRAC, IBM RSA, Sun SSP, etc.).
Un proceso de administrador de IPMI programa las comprobaciones de IPMI por parte de los encuestadores de IPMI. Un host siempre es sondeado por un solo sondeador IPMI a la vez, reducir el número de conexiones abiertas a BMC controladores. Por lo tanto, es seguro aumentar el número de IPMI. encuestadores sin preocuparse por la sobrecarga del controlador BMC. El IPMI El proceso de administrador se inicia automáticamente cuando al menos un encuestador IPMI Está empezado.
Consulte también problemas conocidos para verificaciones de IPMI.
Se debe configurar un host para procesar comprobaciones de IPMI. Una interfaz IPMI debe agregarse, con los respectivos números de IP y puerto, e IPMI se deben definir los parámetros de autenticación.
Consulte la configuración de hosts para obtener más información. detalles.
De forma predeterminada, el servidor Zabbix no está configurado para iniciar ninguna IPMI sondeadores, por lo que cualquier elemento IPMI agregado no funcionará. Para cambiar esto, abra el Archivo de configuración del servidor Zabbix (zabbix_server.conf) como raíz y busca la siguiente línea:
Descoméntalo y establece el conteo de sondeadores en, digamos, 3, para que diga:
Guarde el archivo y luego reinicie zabbix_server.
Al configurar un elemento en un nivel de host:
id:
- para especificar el ID del sensor;name:
- para especificar el nombre completo del sensor. Esto puede ser útil en situaciones en las que los sensores solo se pueden distinguir especificando el nombre completo.El agente IPMI admite la métrica integrada ipmi.get, que devuelve información relacionada con el sensor IPMI y se puede utilizar para el descubrimiento de sensores IPMI.
Valor de retorno: objeto JSON
Los tiempos de espera de los mensajes IPMI y los recuentos de reintentos se definen en la biblioteca OpenIPMI. Debido al diseño actual de OpenIPMI, no es posible hacer que estos valores sean configurables en Zabbix, ni a nivel de interfaz ni de elemento.
El tiempo de espera por inactividad de la sesión IPMI para LAN es de 60 +/-3 segundos. Actualmente no es posible implementar el envío periódico del comando Activate Session con OpenIPMI. Si no hay comprobaciones de elementos IPMI desde Zabbix a un BMC en particular durante más tiempo que el tiempo de espera de la sesión configurado en el BMC, entonces la siguiente comprobación IPMI después de que expire el tiempo de espera fallará debido a tiempos de espera individuales de mensajes, reintentos o errores de recepción. Después de eso, se abre una nueva sesión y se inicia un nuevo escaneo completo del BMC. Puede abrirse un nuevo puerto UDP para gestionar la nueva sesión. La inactividad se define por la ausencia tanto de solicitudes salientes como de respuestas entrantes. Si desea evitar escaneos innecesarios del BMC, se recomienda establecer el intervalo de sondeo del elemento IPMI por debajo del tiempo de espera de inactividad de la sesión IPMI configurado en el BMC.
Para encontrar sensores en un host, inicie el servidor Zabbix con DebugLevel=4 habilitado. Espere unos minutos y busque los registros de descubrimiento de sensores en el archivo de registro del servidor Zabbix:
$ grep 'Added sensor' zabbix_server.log
8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:7 id:'CATERR' reading_type:0x3 ('discrete_state') type:0x7 ('processor') full_name:'(r0.32.3.0).CATERR'
8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'CPU Therm Trip' reading_type:0x3 ('discrete_state') type:0x1 ('temperature') full_name:'(7.1).CPU Therm Trip'
8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'System Event Log' reading_type:0x6f ('sensor specific') type:0x10 ('event_logging_disabled') full_name:'(7.1).System Event Log'
8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'PhysicalSecurity' reading_type:0x6f ('sensor specific') type:0x5 ('physical_security') full_name:'(23.1).PhysicalSecurity'
8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'IPMI Watchdog' reading_type:0x6f ('sensor specific') type:0x23 ('watchdog_2') full_name:'(7.7).IPMI Watchdog'
8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'Power Unit Stat' reading_type:0x6f ('sensor specific') type:0x9 ('power_unit') full_name:'(21.1).Power Unit Stat'
8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Ctrl %' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.1).P1 Therm Ctrl %'
8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.2).P1 Therm Margin'
8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 2' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 2'
8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 3' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 3'
8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'P1 Mem Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).P1 Mem Margin'
8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Front Panel Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Front Panel Temp'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'Baseboard Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Baseboard Temp'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +5.0V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +5.0V'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +3.3V STBY' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V STBY'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +3.3V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.5V P1 DDR3' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.5V P1 DDR3'
8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.1V P1 Vccp' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.1V P1 Vccp'
8358:20130318:111122.174 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +1.05V PCH' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.05V PCH'
Para decodificar los tipos y estados de los sensores IPMI, está disponible una copia de las especificaciones IPMI 2.0 (tenga en cuenta que no se planean más actualizaciones de la especificación IPMI).
El primer parámetro con el que comenzar es "reading_type". Utilice la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" de las especificaciones para decodificar el código "reading_type". La mayoría de los sensores en nuestro ejemplo tienen "reading_type:0x1", lo que significa sensor de "umbral". La "Tabla 42-3, Códigos de tipo de sensor" muestra que "type:0x1" significa sensor de temperatura, "type:0x2" - sensor de voltaje, "type:0x4" - Ventilador, etc. Los sensores de umbral a veces se llaman sensores "analógicos" ya que miden parámetros continuos como temperatura, voltaje, revoluciones por minuto.
Otro ejemplo: un sensor con "reading_type:0x3". La "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" dice que los códigos de tipo de lectura 02h-0Ch significan sensor "Discreto Genérico". Los sensores discretos tienen hasta 15 posibles estados (en otras palabras, hasta 15 bits significativos). Por ejemplo, para el sensor 'CATERR' con "type:0x7", la "Tabla 42-3, Códigos de tipo de sensor" muestra que este tipo significa "Procesador" y el significado de los bits individuales es: 00h (el bit menos significativo) - IERR, 01h - Thermal Trip, etc.
Hay algunos sensores con "reading_type:0x6f" en nuestro ejemplo. Para estos sensores, la "Tabla 42-1, Rangos de códigos de tipo de evento/lectura" aconseja utilizar la "Tabla 42-3, Códigos de tipo de sensor" para decodificar el significado de los bits. Por ejemplo, el sensor 'Power Unit Stat' tiene el tipo "type:0x9", que significa "Unidad de Potencia". El desplazamiento 00h significa "PowerOff/Power Down". En otras palabras, si el bit menos significativo es 1, entonces el servidor está apagado. Para probar este bit, se puede utilizar la función bitand
con máscara '1'. La expresión de disparador podría ser como
para advertir sobre un apagado del servidor.
Nombres de sensores discretos en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 a menudo tener un "0
" adicional (o algún otro dígito o letra) adjunto al final. Por ejemplo, mientras ipmitool
y OpenIPMI-2.0.19 muestran el sensor nombres como "PhysicalSecurity
" o "CATERR
", en OpenIPMI-2.0.16, 2.0.17 y 2.0.18 los nombres son "PhysicalSecurity0
" o "CATERR0
", respectivamente.
Al configurar un elemento de IPMI con el servidor Zabbix usando OpenIPMI-2.0.16, 2.0.17 y 2.0.18, use estos nombres que terminen en "0" en el sensor IPMI campo de elementos de agente de IPMI. Cuando su servidor Zabbix se actualiza a un nuevo Distribución de Linux, que utiliza OpenIPMI-2.0.19 (o posterior), elementos con estos sensores discretos de IPMI pasarán a ser "NO COMPATIBLES". Tienes que cambie sus nombres de sensor IPMI (elimine el '0' al final) y espere durante algún tiempo antes de que vuelvan a estar "Habilitados".
Algunos agentes IPMI proporcionan tanto un sensor de umbral como un sensor discreto. bajo el mismo nombre. Siempre se da preferencia al sensor de umbral.
Si no se realizan comprobaciones de IPMI (por cualquier motivo: todos los elementos de IPMI del host deshabilitado/no compatible, host deshabilitado/eliminado, host en mantenimiento, etc.) la conexión IPMI terminará desde el servidor Zabbix o proxy en 3 a 4 horas dependiendo de la hora en que se inició el servidor/proxy Zabbix.