11 Einstellungen für nicht erreichbare/nicht verfügbare Host-Schnittstellen
Übersicht
Mehrere Konfigurations- Parameter legen fest, wie sich der Zabbix Server verhalten soll, wenn eine Agent-Prüfung (Zabbix, SNMP, IPMI, JMX) fehlschlägt und eine Host-Schnittstelle nicht erreichbar wird.
Nicht erreichbare Schnittstelle
Eine Host-Schnittstelle wird nach einer fehlgeschlagenen Prüfung (Netzwerkfehler, Timeout) durch Zabbix-, SNMP-, IPMI- oder JMX-Agenten als nicht erreichbar behandelt. Seit Zabbix 6.2.0 beeinflussen auch aktive Prüfungen des Zabbix Agent die Verfügbarkeit der Schnittstelle. Wenn aktive Prüfungen nicht verfügbar werden, tragen sie zum allgemeinen Verfügbarkeitsstatus der Agent-Schnittstelle bei.
Ab dem Moment, in dem eine Schnittstelle nicht erreichbar wird, definiert UnreachableDelay, wie oft sie mithilfe eines der Datenpunkte (einschließlich LLD-Regeln) erneut geprüft wird.
Diese erneuten Prüfungen werden von Pollern für nicht erreichbare Hosts durchgeführt (oder von IPMI-Pollern bei IPMI-Prüfungen).
Standardmäßig beträgt das Intervall zwischen aufeinanderfolgenden Erreichbarkeitsprüfungen 15 Sekunden.
Prüfungen, die von asynchronen Pollern durchgeführt werden, werden nicht an Poller für nicht erreichbare Hosts übergeben.
Im Zabbix-Server-Log wird die Nichterreichbarkeit durch Meldungen wie die folgenden angezeigt:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
Die Log-Meldungen geben den genauen fehlgeschlagenen Datenpunkt und seinen Typ (Zabbix Agent) an.
Der Parameter Timeout beeinflusst ebenfalls, wie früh eine Schnittstelle während der Nichterreichbarkeit erneut geprüft wird. Wenn Timeout auf 20 Sekunden und UnreachableDelay auf 30 Sekunden gesetzt ist, erfolgt die nächste Prüfung 50 Sekunden nach dem ersten Versuch.
Der Parameter UnreachablePeriod definiert die Gesamtdauer des Zeitraums der Nichterreichbarkeit. Standardmäßig beträgt UnreachablePeriod 45 Sekunden.
Dieser Wert sollte um ein Mehrfaches größer sein als UnreachableDelay, damit sichergestellt ist, dass eine Schnittstelle mehrfach erneut geprüft wird, bevor sie als nicht verfügbar markiert wird.
Ein interner Datenpunkt, zabbix[host,active_agent,available], ermöglicht die Überwachung der Verfügbarkeit aktiver Prüfungen in Szenarien mit Nichterreichbarkeit.
Schnittstelle wieder auf verfügbar setzen
Wenn der Nichterreichbarkeitszeitraum vorbei ist, wird die Schnittstelle erneut abgefragt, wobei die Priorität für den Datenpunkt verringert wird, der die Schnittstelle in den Zustand „nicht erreichbar“ versetzt hat. Wenn die nicht erreichbare Schnittstelle wieder erscheint, kehrt die Überwachung automatisch zum Normalzustand zurück:
Fortsetzen der Zabbix-Agent-Prüfungen auf Host "New host": Verbindung wiederhergestellt
Sobald die Schnittstelle verfügbar wird, fragt der Host nicht sofort alle seine Datenpunkte ab, und zwar aus zwei Gründen:
- Dies könnte den Host überlasten.
- Der Zeitpunkt der Wiederherstellung der Schnittstelle stimmt nicht immer mit dem geplanten Zeitpunkt des Datenpunkt-Abfrageintervalls überein.
Daher werden Datenpunkte, nachdem die Schnittstelle verfügbar geworden ist, nicht sofort abgefragt, sondern für ihre nächste Abfragerunde neu eingeplant.
Nicht verfügbare Schnittstelle
Nachdem die UnreachablePeriod abgelaufen ist und die Schnittstelle nicht wieder erschienen ist, wird die Schnittstelle als nicht verfügbar behandelt.
Im Server-Log wird dies durch Meldungen wie diese angezeigt:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
und im Frontend wechselt das Verfügbarkeitssymbol des Hosts von grün/grau zu gelb/rot (die Details zur nicht verfügbaren Schnittstelle sind im Hinweisfeld zu sehen, das angezeigt wird, wenn sich der Mauszeiger auf dem Verfügbarkeitssymbol des Hosts befindet):

Der Parameter UnavailableDelay legt fest, wie oft eine Schnittstelle während ihrer Nichtverfügbarkeit geprüft wird.
Standardmäßig beträgt er 60 Sekunden (in diesem Fall bedeutet also „temporarily disabling“ aus der obigen Log-Meldung, dass Prüfungen für eine Minute deaktiviert werden).
Wenn die Verbindung zur Schnittstelle wiederhergestellt ist, kehrt auch die Überwachung automatisch in den Normalzustand zurück:
enabling Zabbix agent checks on host "New host": interface became available