11 Impostazioni dell'interfaccia host irraggiungibile/non disponibile
Panoramica
Diversi parametri di configurazione definiscono come il server Zabbix deve comportarsi quando un controllo agent (Zabbix, SNMP, IPMI, JMX) fallisce e un'interfaccia host diventa irraggiungibile.
Interfaccia non raggiungibile
Un'interfaccia di host viene considerata non raggiungibile dopo un controllo fallito (errore di rete, timeout) da parte di Zabbix, SNMP, IPMI o degli agent. A partire da Zabbix 6.2.0, anche i controlli attivi di Zabbix agent influiscono sulla disponibilità dell'interfaccia. Quando i controlli attivi diventano non disponibili, contribuiscono allo stato complessivo di disponibilità dell'interfaccia dell'agent.
Dal momento in cui un'interfaccia diventa non raggiungibile, UnreachableDelay definisce con quale frequenza viene ricontrollata usando uno degli item (incluse le regole LLD). Questi ricontrolli vengono eseguiti dagli unreachable pollers (o dagli IPMI pollers per i controlli IPMI). Per impostazione predefinita, l'intervallo tra controlli consecutivi di raggiungibilità è di 15 secondi.
I controlli eseguiti dagli asynchronous pollers non vengono spostati sugli unreachable pollers.
Nel log del server Zabbix la non raggiungibilità è indicata da messaggi come:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
I messaggi di log specificano l'esatto item che è fallito e il suo tipo (Zabbix agent).
Il parametro Timeout influisce anche su quanto presto un'interfaccia viene ricontrollata durante la non raggiungibilità. Se Timeout è impostato a 20 secondi e UnreachableDelay a 30 secondi, il controllo successivo avverrà dopo 50 secondi dal primo tentativo.
Il parametro UnreachablePeriod definisce la durata totale del periodo di non raggiungibilità. Per impostazione predefinita, UnreachablePeriod è 45 secondi. Questo valore dovrebbe essere diverse volte maggiore di UnreachableDelay per garantire che un'interfaccia venga ricontrollata più volte prima di essere contrassegnata come non disponibile.
Un item interno, zabbix[host,active_agent,available], consente di monitorare la disponibilità dei controlli attivi in scenari di non raggiungibilità.
Ripristino dell'interfaccia allo stato disponibile
Quando il periodo di irraggiungibilità termina, l'interfaccia viene nuovamente interrogata, riducendo la priorità per l'item che ha portato l'interfaccia nello stato di irraggiungibilità. Se l'interfaccia irraggiungibile ricompare, il monitoraggio torna automaticamente alla normalità:
ripresa dei controlli Zabbix agent sull'host "New host": connessione ripristinata
Una volta che l'interfaccia torna disponibile, l'host non interroga immediatamente tutti i suoi item per due motivi:
- Potrebbe sovraccaricare l'host.
- Il momento di ripristino dell'interfaccia non coincide sempre con il tempo pianificato per l'interrogazione degli item.
Quindi, dopo che l'interfaccia torna disponibile, gli item non vengono interrogati immediatamente, ma vengono riprogrammati per il successivo ciclo di interrogazione.
Interfaccia non disponibile
Dopo la fine di UnreachablePeriod, se l'interfaccia non è ricomparsa, l'interfaccia viene considerata non disponibile.
Nel log del server ciò è indicato da messaggi come questi:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
e nel frontend l'icona di disponibilità del host passa da verde/grigio a giallo/rosso (i dettagli dell'interfaccia non disponibile possono essere visualizzati nel riquadro di suggerimento che viene mostrato quando il puntatore del mouse viene posizionato sull'icona di disponibilità del host):

Il parametro UnavailableDelay definisce con quale frequenza un'interfaccia viene controllata durante il periodo di non disponibilità dell'interfaccia.
Per impostazione predefinita è di 60 secondi (quindi in questo caso "temporarily disabling", dal messaggio di log sopra, significherà disabilitare i controlli per un minuto).
Quando la connessione all'interfaccia viene ripristinata, anche il monitoraggio torna automaticamente alla normalità:
enabling Zabbix agent checks on host "New host": interface became available