11 Impostazioni dell'interfaccia host irraggiungibile/non disponibile
Panoramica
Diversi parametri di configurazione definiscono come il server Zabbix deve comportarsi quando un controllo agent (Zabbix, SNMP, IPMI, JMX) fallisce e un'interfaccia host diventa irraggiungibile.
Interfaccia non raggiungibile
Un'interfaccia host viene considerata non raggiungibile dopo un controllo non riuscito (errore di rete, timeout) da parte di agent Zabbix, agent SNMP, agent IPMI o agent JMX. A partire da Zabbix 6.2.0, anche i controlli attivi dell'agent Zabbix influiscono sulla disponibilità dell'interfaccia. Quando i controlli attivi diventano non disponibili, contribuiscono allo stato complessivo di disponibilità dell'interfaccia dell'agent.
Dal momento in cui un'interfaccia diventa non raggiungibile, UnreachableDelay definisce con quale frequenza viene ricontrollata utilizzando uno degli item (incluse le regole LLD). Questi ricontrolli vengono eseguiti dagli unreachable poller (o dagli IPMI poller per i controlli IPMI). Per impostazione predefinita, l'intervallo tra controlli consecutivi di raggiungibilità è di 15 secondi.
I controlli eseguiti da poller asincroni non vengono spostati agli unreachable poller.
Nel log del server Zabbix la non raggiungibilità è indicata da messaggi come:
L'item dell'agent Zabbix "system.cpu.load[percpu,avg1]" sull'host "New host" non è riuscito: primo errore di rete, attendere 15 secondi
L'item dell'agent Zabbix "system.cpu.load[percpu,avg15]" sull'host "New host" non è riuscito: un altro errore di rete, attendere 15 secondi
I messaggi di log specificano l'item esatto che non è riuscito e il suo tipo (agent Zabbix).
Anche il parametro Timeout influisce su quanto presto un'interfaccia viene ricontrollata durante la non raggiungibilità. Se Timeout è impostato su 20 secondi e UnreachableDelay su 30 secondi, il controllo successivo avverrà 50 secondi dopo il primo tentativo.
Il parametro UnreachablePeriod definisce la durata totale del periodo di non raggiungibilità. Per impostazione predefinita, UnreachablePeriod è 45 secondi. Questo valore dovrebbe essere diverse volte maggiore di UnreachableDelay per garantire che un'interfaccia venga ricontrollata più volte prima di essere contrassegnata come non disponibile.
Un item interno, zabbix[host,active_agent,available], consente di monitorare la disponibilità dei controlli attivi in scenari di non raggiungibilità.
Ripristino dell'interfaccia allo stato disponibile
Quando il periodo di irraggiungibilità termina, l'interfaccia viene nuovamente interrogata, riducendo la priorità per l'item che ha portato l'interfaccia nello stato di irraggiungibilità. Se l'interfaccia irraggiungibile ricompare, il monitoraggio torna automaticamente alla normalità:
ripresa dei controlli Zabbix agent sull'host "New host": connessione ripristinata
Una volta che l'interfaccia torna disponibile, l'host non interroga immediatamente tutti i suoi item per due motivi:
- Potrebbe sovraccaricare l'host.
- Il momento di ripristino dell'interfaccia non coincide sempre con il tempo pianificato per l'interrogazione degli item.
Quindi, dopo che l'interfaccia torna disponibile, gli item non vengono interrogati immediatamente, ma vengono riprogrammati per il successivo ciclo di interrogazione.
Interfaccia non disponibile
Dopo la fine di UnreachablePeriod, se l'interfaccia non è ricomparsa, l'interfaccia viene considerata non disponibile.
Nel log del server ciò è indicato da messaggi come questi:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
e nel frontend l'icona di disponibilità del host passa da verde/grigio a giallo/rosso (i dettagli dell'interfaccia non disponibile possono essere visualizzati nel riquadro di suggerimento che viene mostrato quando il puntatore del mouse viene posizionato sull'icona di disponibilità del host):

Il parametro UnavailableDelay definisce con quale frequenza un'interfaccia viene controllata durante il periodo di non disponibilità dell'interfaccia.
Per impostazione predefinita è di 60 secondi (quindi in questo caso "temporarily disabling", dal messaggio di log sopra, significherà disabilitare i controlli per un minuto).
Quando la connessione all'interfaccia viene ripristinata, anche il monitoraggio torna automaticamente alla normalità:
enabling Zabbix agent checks on host "New host": interface became available