11 Configurações de interface de host inacessível/indisponível

Visão geral

Vários parâmetros de configuração definem como o server Zabbix deve se comportar quando uma verificação de agent (Zabbix, SNMP, IPMI, JMX) falha e uma interface do host se torna inacessível.

Interface inacessível

Uma interface de host é tratada como inacessível após uma verificação com falha (erro de rede, timeout) por Zabbix, SNMP, IPMI ou agentes JMX. Desde o Zabbix 6.2.0, verificações ativas do Zabbix agent também afetam a disponibilidade da interface. Quando as verificações ativas se tornam indisponíveis, elas contribuem para o status geral de disponibilidade da interface do agent.

A partir do momento em que uma interface se torna inacessível, UnreachableDelay define com que frequência ela é verificada novamente usando um dos items (incluindo regras LLD). Essas novas verificações são executadas por unreachable pollers (ou IPMI pollers para verificações IPMI). Por padrão, o intervalo entre verificações consecutivas de acessibilidade é de 15 segundos.

As verificações executadas por asynchronous pollers não são movidas para unreachable pollers.

No log do Zabbix server, a inacessibilidade é indicada por mensagens como:

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

As mensagens de log especificam o item exato que falhou e seu tipo (Zabbix agent).

O parâmetro Timeout também afeta quão cedo uma interface é verificada novamente durante a inacessibilidade. Se Timeout estiver definido como 20 segundos e UnreachableDelay como 30 segundos, a próxima verificação ocorrerá 50 segundos após a primeira tentativa.

O parâmetro UnreachablePeriod define a duração total do período de inacessibilidade. Por padrão, UnreachablePeriod é 45 segundos. Esse valor deve ser várias vezes maior que UnreachableDelay para garantir que uma interface seja verificada novamente várias vezes antes de ser marcada como indisponível.

Um item interno, zabbix[host,active_agent,available], permite monitorar a disponibilidade de verificações ativas em cenários de inacessibilidade.

Alternando a interface de volta para disponível

Quando o período de inacessibilidade termina, a interface é verificada novamente, diminuindo a prioridade para o item que tornou a interface inacessível. Se a interface inacessível reaparecer, o monitoramento retorna ao normal automaticamente:

retomando verificações do agent Zabbix no host "Novo host": conexão restaurada

Assim que a interface se torna disponível, o host não verifica todos os seus items imediatamente por dois motivos:

  • Isso pode sobrecarregar o host.
  • O tempo de restauração da interface nem sempre coincide com o tempo planejado de verificação do item.

Portanto, após a interface se tornar disponível, os items não são verificados imediatamente, mas são reagendados para a próxima rodada de verificação.

Interface indisponível

Após o término do UnreachablePeriod e a interface não ter reaparecido, a interface é tratada como indisponível.

No log do server isso é indicado por mensagens como estas:

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

e no frontend o ícone de disponibilidade do host vai de verde/cinza para amarelo/vermelho (os detalhes da interface indisponível podem ser vistos na caixa de dica que é exibida quando o mouse é posicionado sobre o ícone de disponibilidade do host):

O parâmetro UnavailableDelay define com que frequência uma interface é verificada durante a indisponibilidade da interface.

Por padrão, é de 60 segundos (então, neste caso, "temporarily disabling", da mensagem de log acima, significará desabilitar as verificações por um minuto).

Quando a conexão com a interface é restaurada, o monitoramento retorna ao normal automaticamente também:

enabling Zabbix agent checks on host "New host": interface became available