11 Configurações de interface de host inacessível/indisponível
Visão geral
Vários parâmetros de configuração definem como o server Zabbix deve se comportar quando uma verificação de agent (Zabbix, SNMP, IPMI, JMX) falha e uma interface do host se torna inacessível.
Interface inacessível
Uma interface de host é tratada como inacessível após uma verificação com falha (erro de rede, timeout) por Zabbix, SNMP, IPMI ou agentes JMX. Desde o Zabbix 6.2.0, verificações ativas do Zabbix agent também afetam a disponibilidade da interface. Quando as verificações ativas se tornam indisponíveis, elas contribuem para o status geral de disponibilidade da interface do agent.
A partir do momento em que uma interface se torna inacessível, UnreachableDelay define com que frequência ela é verificada novamente usando um dos items (incluindo regras LLD). Essas novas verificações são executadas por unreachable pollers (ou IPMI pollers para verificações IPMI). Por padrão, o intervalo entre verificações consecutivas de acessibilidade é de 15 segundos.
As verificações executadas por asynchronous pollers não são movidas para unreachable pollers.
No log do Zabbix server, a inacessibilidade é indicada por mensagens como:
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
As mensagens de log especificam o item exato que falhou e seu tipo (Zabbix agent).
O parâmetro Timeout também afeta quão cedo uma interface é verificada novamente durante a inacessibilidade. Se Timeout estiver definido como 20 segundos e UnreachableDelay como 30 segundos, a próxima verificação ocorrerá 50 segundos após a primeira tentativa.
O parâmetro UnreachablePeriod define a duração total do período de inacessibilidade. Por padrão, UnreachablePeriod é 45 segundos. Esse valor deve ser várias vezes maior que UnreachableDelay para garantir que uma interface seja verificada novamente várias vezes antes de ser marcada como indisponível.
Um item interno, zabbix[host,active_agent,available], permite monitorar a disponibilidade de verificações ativas em cenários de inacessibilidade.
Alternando a interface de volta para disponível
Quando o período de inacessibilidade termina, a interface é verificada novamente, diminuindo a prioridade para o item que tornou a interface inacessível. Se a interface inacessível reaparecer, o monitoramento retorna ao normal automaticamente:
retomando verificações do agent Zabbix no host "Novo host": conexão restaurada
Assim que a interface se torna disponível, o host não verifica todos os seus items imediatamente por dois motivos:
- Isso pode sobrecarregar o host.
- O tempo de restauração da interface nem sempre coincide com o tempo planejado de verificação do item.
Portanto, após a interface se tornar disponível, os items não são verificados imediatamente, mas são reagendados para a próxima rodada de verificação.
Interface indisponível
Após o término do UnreachablePeriod e a interface não ter reaparecido, a interface é tratada como indisponível.
No log do server isso é indicado por mensagens como estas:
temporarily disabling Zabbix agent checks on host "New host": interface unavailable
e no frontend o ícone de disponibilidade do host vai de verde/cinza para amarelo/vermelho (os detalhes da interface indisponível podem ser vistos na caixa de dica que é exibida quando o mouse é posicionado sobre o ícone de disponibilidade do host):

O parâmetro UnavailableDelay define com que frequência uma interface é verificada durante a indisponibilidade da interface.
Por padrão, é de 60 segundos (então, neste caso, "temporarily disabling", da mensagem de log acima, significará desabilitar as verificações por um minuto).
Quando a conexão com a interface é restaurada, o monitoramento retorna ao normal automaticamente também:
enabling Zabbix agent checks on host "New host": interface became available