11 Paramètres d’interface d’hôte injoignable/indisponible

Aperçu

Plusieurs paramètres de configuration définissent le comportement du serveur Zabbix lorsqu'une vérification d'agent (Zabbix, SNMP, IPMI, JMX) échoue et qu'une interface hôte devient inaccessible.

Interface inaccessible

Une interface d’hôte est considérée comme inaccessible après un contrôle échoué (erreur réseau, délai d’attente) par les agents Zabbix, SNMP, IPMI ou JMX. Depuis Zabbix 6.2.0, les contrôles actifs de l’agent Zabbix affectent également la disponibilité de l’interface. Lorsque les contrôles actifs deviennent indisponibles, ils contribuent à l’état global de disponibilité de l’interface de l’agent.

À partir du moment où une interface devient inaccessible, UnreachableDelay définit à quelle fréquence elle est revérifiée à l’aide de l’un des éléments (y compris les règles LLD).
Ces revérifications sont effectuées par les pollers d’inaccessibilité (ou par les pollers IPMI pour les contrôles IPMI).
Par défaut, l’intervalle entre deux contrôles consécutifs d’accessibilité est de 15 secondes.

Les contrôles effectués par des pollers asynchrones ne sont pas transférés aux pollers d’inaccessibilité.

Dans le journal du serveur Zabbix, l’inaccessibilité est indiquée par des messages tels que :

L’élément d’agent Zabbix "system.cpu.load[percpu,avg1]" sur l’hôte "New host" a échoué : première erreur réseau, attendre 15 secondes
L’élément d’agent Zabbix "system.cpu.load[percpu,avg15]" sur l’hôte "New host" a échoué : autre erreur réseau, attendre 15 secondes

Les messages du journal précisent l’élément exact qui a échoué ainsi que son type (agent Zabbix).

Le paramètre Timeout affecte également le délai avant qu’une interface soit revérifiée pendant son inaccessibilité. Si Timeout est défini à 20 secondes et UnreachableDelay à 30 secondes, le prochain contrôle aura lieu 50 secondes après la première tentative.

Le paramètre UnreachablePeriod définit la durée totale de la période d’inaccessibilité. Par défaut, UnreachablePeriod est de 45 secondes.
Cette valeur doit être plusieurs fois supérieure à UnreachableDelay afin de garantir qu’une interface soit revérifiée plusieurs fois avant d’être marquée comme indisponible.

Un élément interne, zabbix[host,active_agent,available], permet de surveiller la disponibilité des contrôles actifs dans les scénarios d’inaccessibilité.

Retour de l'interface en disponible

Lorsque la période d'inaccessibilité est terminée, l'interface est à nouveau interrogée, priorité décroissante pour l'élément qui a rendu l'interface en état inaccessible. Si l'interface inaccessible réapparaît, la surveillance revient à la normale automatiquement :

resuming Zabbix agent checks on host "New host": connection restored

Une fois l'interface disponible, l'hôte n'interroge pas tous ses éléments immédiatement pour deux raisons :

  • Cela pourrait surcharger l'hôte.
  • Le temps de restauration de l'interface ne correspond pas toujours à la planification d'interrogation de l'élément prévue.

Ainsi, une fois l'interface disponible, les éléments ne sont pas interrogés immédiatement, mais ils sont reportés à leur prochaine planification.

Interface indisponible

Après la fin de la période UnreachablePeriod et si l’interface n’est pas réapparue, l’interface est considérée comme indisponible.

Dans le journal du serveur, cela est indiqué par des messages comme ceux-ci :

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

et dans le frontend l’icône de disponibilité de l’hôte passe du vert/gris au jaune/rouge (les détails de l’interface indisponible peuvent être consultés dans l’infobulle affichée lorsque le pointeur de la souris est placé sur l’icône de disponibilité de l’hôte) :

Le paramètre UnavailableDelay définit la fréquence à laquelle une interface est vérifiée pendant son indisponibilité.

Par défaut, elle est de 60 secondes (dans ce cas, « temporarily disabling », dans le message du journal ci-dessus, signifie que les vérifications seront désactivées pendant une minute).

Lorsque la connexion à l’interface est rétablie, la supervision revient également automatiquement à la normale :

enabling Zabbix agent checks on host "New host": interface became available