11 Paramètres d’interface d’hôte injoignable/indisponible

Aperçu

Plusieurs paramètres de configuration définissent le comportement du serveur Zabbix lorsqu'une vérification d'agent (Zabbix, SNMP, IPMI, JMX) échoue et qu'une interface d'hôte devient inaccessible.

Interface inaccessible

Une interface d'hôte est considérée comme inaccessible après un échec de vérification (erreur réseau, délai d'attente) par les agents Zabbix, SNMP, IPMI ou JMX. Depuis Zabbix 6.2.0, les vérifications actives de l'agent Zabbix influencent également la disponibilité de l'interface. Lorsque les vérifications actives deviennent indisponibles, elles contribuent à l'état global de disponibilité de l'interface de l'agent.

À partir du moment où une interface devient inaccessible, UnreachableDelay définit la fréquence à laquelle elle est revérifiée à l'aide de l'un des éléments (y compris les règles LLD). Ces revérifications sont effectuées par les pollers d'inaccessibilité (ou par les pollers IPMI pour les vérifications IPMI). Par défaut, l'intervalle entre deux vérifications de disponibilité successives est de 15 secondes.

Les vérifications effectuées par les pollers asynchrones ne sont pas déplacées vers les pollers d'inaccessibilité.

Dans le journal du serveur Zabbix, l'inaccessibilité est indiquée par des messages tels que :

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Les messages du journal précisent l'élément exact en échec ainsi que son type (agent Zabbix).

Le paramètre Timeout influence également la rapidité avec laquelle une interface est revérifiée pendant une période d'inaccessibilité. Si Timeout est défini sur 20 secondes et UnreachableDelay sur 30 secondes, la prochaine vérification aura lieu 50 secondes après la première tentative.

Le paramètre UnreachablePeriod définit la durée totale de la période d'inaccessibilité. Par défaut, UnreachablePeriod est de 45 secondes. Cette valeur doit être plusieurs fois supérieure à UnreachableDelay afin de garantir qu'une interface soit revérifiée plusieurs fois avant d'être marquée comme indisponible.

Un élément interne, zabbix[host,active_agent,available], permet de surveiller la disponibilité des vérifications actives dans les scénarios d'inaccessibilité.

Retour de l'interface en disponible

Lorsque la période d'inaccessibilité est terminée, l'interface est à nouveau interrogée, priorité décroissante pour l'élément qui a rendu l'interface en état inaccessible. Si l'interface inaccessible réapparaît, la surveillance revient à la normale automatiquement :

resuming Zabbix agent checks on host "New host": connection restored

Une fois l'interface disponible, l'hôte n'interroge pas tous ses éléments immédiatement pour deux raisons :

  • Cela pourrait surcharger l'hôte.
  • Le temps de restauration de l'interface ne correspond pas toujours à la planification d'interrogation de l'élément prévue.

Ainsi, une fois l'interface disponible, les éléments ne sont pas interrogés immédiatement, mais ils sont reportés à leur prochaine planification.

Interface indisponible

Après la fin de la période UnreachablePeriod et si l’interface n’est pas réapparue, l’interface est considérée comme indisponible.

Dans le journal du serveur, cela est indiqué par des messages comme ceux-ci :

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

et dans le frontend l’icône de disponibilité de l’hôte passe du vert/gris au jaune/rouge (les détails de l’interface indisponible peuvent être consultés dans l’infobulle affichée lorsque le pointeur de la souris est placé sur l’icône de disponibilité de l’hôte) :

Le paramètre UnavailableDelay définit la fréquence à laquelle une interface est vérifiée pendant son indisponibilité.

Par défaut, elle est de 60 secondes (dans ce cas, « temporarily disabling », dans le message du journal ci-dessus, signifie que les vérifications seront désactivées pendant une minute).

Lorsque la connexion à l’interface est rétablie, la supervision revient également automatiquement à la normale :

enabling Zabbix agent checks on host "New host": interface became available