11 Configuración de la interfaz de equipo inaccesible/no disponible

Resumen

Varios parámetros de configuración definen cómo debe comportarse el server de Zabbix cuando falla una comprobación de agent (Zabbix, SNMP, IPMI, JMX) y una interfaz de host se vuelve inaccesible.

Interfaz inalcanzable

Una interfaz de host se considera inalcanzable después de una comprobación fallida (error de red, tiempo de espera agotado) por parte de Zabbix, SNMP, IPMI o agentes JMX. Desde Zabbix 6.2.0, las comprobaciones activas del agent de Zabbix también afectan a la disponibilidad de la interfaz. Cuando las comprobaciones activas dejan de estar disponibles, contribuyen al estado general de disponibilidad de la interfaz del agent.

A partir del momento en que una interfaz se vuelve inalcanzable, UnreachableDelay define con qué frecuencia se vuelve a comprobar usando uno de los items (incluidas las reglas LLD). Estas nuevas comprobaciones las realizan los pollers de inalcanzables (o los pollers IPMI para comprobaciones IPMI). De forma predeterminada, el intervalo entre comprobaciones consecutivas de alcanzabilidad es de 15 segundos.

Las comprobaciones realizadas por los pollers asíncronos no se trasladan a los pollers de inalcanzables.

En el registro del server de Zabbix, la inalcanzabilidad se indica con mensajes como:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Los mensajes del registro especifican el item exacto que falló y su tipo (Zabbix agent).

El parámetro Timeout también afectará a cuán pronto se vuelve a comprobar una interfaz durante el estado de inalcanzabilidad. Si Timeout se establece en 20 segundos y UnreachableDelay en 30 segundos, la siguiente comprobación se realizará 50 segundos después del primer intento.

El parámetro UnreachablePeriod define la duración total del período de inalcanzabilidad. De forma predeterminada, UnreachablePeriod es de 45 segundos. Este valor debe ser varias veces mayor que UnreachableDelay para garantizar que una interfaz se vuelva a comprobar varias veces antes de marcarla como no disponible.

Un item interno, zabbix[host,active_agent,available], permite supervisar la disponibilidad de las comprobaciones activas en escenarios de inalcanzabilidad.

Cambiando la interfaz de nuevo a disponible

Cuando finaliza el período de inaccesibilidad, la interfaz se sondea nuevamente, disminuyendo la prioridad para la métrica que puso la interfaz en estado de inaccesibilidad. Si la interfaz inaccesible reaparece, la monitorización vuelve a la normalidad automáticamente:

reanudando comprobaciones del agente Zabbix en el equipo "Nuevo equipo": conexión restaurada

Una vez que la interfaz se vuelve disponible, el equipo no sondea todas sus métricas inmediatamente por dos razones:

  • Podría sobrecargar el equipo.
  • El tiempo de restauración de la interfaz no siempre coincide con el tiempo programado de sondeo de la métrica.

Por lo tanto, después de que la interfaz se vuelve disponible, las métricas no se sondean inmediatamente, sino que se reprograman para su próxima ronda de sondeo.

Interfaz no disponible

Después de que finaliza el UnreachablePeriod y la interfaz no ha reaparecido, la interfaz se trata como no disponible.

En el registro del servidor se indica mediante mensajes como estos:

deshabilitando temporalmente las comprobaciones del agente Zabbix en el equipo "Nuevo equipo": interfaz no disponible

y en el frontend el icono de disponibilidad del equipo pasa de verde/gris a amarillo/rojo (los detalles de la interfaz no disponible pueden verse en el cuadro de información que se muestra cuando se posiciona el ratón sobre el icono de disponibilidad del equipo):

El parámetro UnavailableDelay define con qué frecuencia se comprueba una interfaz durante la indisponibilidad de la interfaz.

Por defecto es de 60 segundos (por lo que en este caso "deshabilitando temporalmente", según el mensaje del registro anterior, significará deshabilitar las comprobaciones durante un minuto).

Cuando se restablece la conexión con la interfaz, la monitorización vuelve a la normalidad automáticamente también:

habilitando las comprobaciones del agente Zabbix en el equipo "Nuevo equipo": la interfaz volvió a estar disponible