11 Configuración de la interfaz de equipo inaccesible/no disponible

Resumen

Varios parámetros de configuración definen cómo debe comportarse el server de Zabbix cuando falla una comprobación de agent (Zabbix, SNMP, IPMI, JMX) y una interfaz de host se vuelve inaccesible.

Interfaz inaccesible

Una interfaz de host se considera inaccesible después de una comprobación fallida (error de red, tiempo de espera agotado) por parte de Zabbix, SNMP, IPMI o los agentes JMX. Desde Zabbix 6.2.0, las comprobaciones activas de Zabbix agent también afectan a la disponibilidad de la interfaz. Cuando las comprobaciones activas dejan de estar disponibles, contribuyen al estado general de disponibilidad de la interfaz del agent.

A partir del momento en que una interfaz se vuelve inaccesible, UnreachableDelay define con qué frecuencia se vuelve a comprobar usando uno de los items (incluidas las reglas LLD). Estas nuevas comprobaciones las realizan los pollers de inaccesibilidad (o los pollers IPMI para comprobaciones IPMI). De forma predeterminada, el intervalo entre comprobaciones consecutivas de accesibilidad es de 15 segundos.

Las comprobaciones realizadas por los pollers asíncronos no se trasladan a los pollers de inaccesibilidad.

En el registro del server de Zabbix, la inaccesibilidad se indica con mensajes como:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Los mensajes del registro especifican el item exacto que falló y su tipo (Zabbix agent).

El parámetro Timeout también afectará a cuán pronto se vuelve a comprobar una interfaz durante el estado de inaccesibilidad. Si Timeout está establecido en 20 segundos y UnreachableDelay en 30 segundos, la siguiente comprobación se realizará 50 segundos después del primer intento.

El parámetro UnreachablePeriod define la duración total del período de inaccesibilidad. De forma predeterminada, UnreachablePeriod es de 45 segundos. Este valor debe ser varias veces mayor que UnreachableDelay para garantizar que una interfaz se vuelva a comprobar varias veces antes de marcarla como no disponible.

Un item interno, zabbix[host,active_agent,available], permite supervisar la disponibilidad de las comprobaciones activas en escenarios de inaccesibilidad.

Cambiando la interfaz de nuevo a disponible

Cuando finaliza el período de inaccesibilidad, la interfaz se sondea nuevamente, disminuyendo la prioridad para la métrica que puso la interfaz en estado de inaccesibilidad. Si la interfaz inaccesible reaparece, la monitorización vuelve a la normalidad automáticamente:

reanudando comprobaciones del agente Zabbix en el equipo "Nuevo equipo": conexión restaurada

Una vez que la interfaz se vuelve disponible, el equipo no sondea todas sus métricas inmediatamente por dos razones:

  • Podría sobrecargar el equipo.
  • El tiempo de restauración de la interfaz no siempre coincide con el tiempo programado de sondeo de la métrica.

Por lo tanto, después de que la interfaz se vuelve disponible, las métricas no se sondean inmediatamente, sino que se reprograman para su próxima ronda de sondeo.

Interfaz no disponible

Después de que finaliza el UnreachablePeriod y la interfaz no ha reaparecido, la interfaz se trata como no disponible.

En el registro del servidor se indica mediante mensajes como estos:

deshabilitando temporalmente las comprobaciones del agente Zabbix en el equipo "Nuevo equipo": interfaz no disponible

y en el frontend el icono de disponibilidad del equipo pasa de verde/gris a amarillo/rojo (los detalles de la interfaz no disponible pueden verse en el cuadro de información que se muestra cuando se posiciona el ratón sobre el icono de disponibilidad del equipo):

El parámetro UnavailableDelay define con qué frecuencia se comprueba una interfaz durante la indisponibilidad de la interfaz.

Por defecto es de 60 segundos (por lo que en este caso "deshabilitando temporalmente", según el mensaje del registro anterior, significará deshabilitar las comprobaciones durante un minuto).

Cuando se restablece la conexión con la interfaz, la monitorización vuelve a la normalidad automáticamente también:

habilitando las comprobaciones del agente Zabbix en el equipo "Nuevo equipo": la interfaz volvió a estar disponible