Prezados,
Uma breve apresentação: Administro uma plataforma Zabbix em ambiente de operadora de telecom, basicamente monitoramos ICMP Ping, status de interface (UP/DOWN) e SNMP dos ativos da rede como roteadores, switches, rádios, etc.
Iniciei essa empreitada instalando o Zabbix em um PC doméstico com base em estudos em forums, livros, videoaula e na documentação oficial - como muitos dizem "na unha", oque acredito ser, ou já ter sido a realidade de muitos. Hoje a plataforma tem uma função muito "entranhada" na operação da empresa sendo fundamental em muitos processos, mais estritamente na abertura de chamados proativos e alarmes (Telegram), com a expansão da rede, consequentemente a aumento de hosts e itens, o hardware da plataforma foi atualizado hoje contando com 02 servidores Dell r210 ( Zabbix e Mysql) sei que não é lá grande coisa mas no momento é o que tenho. Vamos aos dados:
Status Zabbix:

Internal Process Busy:

Gathering Process Busy:

O Problema:
Como mencionado o Zabbix monitora o status de muitos dispositivos da rede com o ICMP Ping - EX: Roteadores instalados em clientes (CPE).
A ideia é: Se o host estiver pingando OK, caso contrário é gerado um alarme na tela Monitoramento>Triggers e no Dashboard, dependendo da importância do host é gerado um alarme no Telegram.
Utilizo para este fim a key icmpping + Trigger:
Key icmpping:

Expresão do Trigger:
{Template Conectividade:icmpping[,{$PING},,,].last(#1)}=0 and {Template Conectividade:icmpping[,{$PING},,,].sum(#2)}=0
Dinâmica do Fato:
O que vem acontecendo é quando ocorre um incidente massivo, mesmo apos a normalização dos serviços alguns hosts permanecem com o status de inacessível, oque vem gerando aberturas de chamados e alarmes falsos. Por exemplo:
Ocorreu um incidente massivo (14-11-2018 15:04:12) que afetou um grupo de hosts que tornaram-se indisponíveis entre eles o host de IP 10.20.1.58 utilizado como exemplo, até este ponto o trigger de indisponibilidade atuou perfeitamente gerando o alarme na tela Monitoramento > Trigger; no entanto apos o incidente ser normalizado o trigger permanece na tela de alarmes.
Tela: Monitoramento > Triggers:

Como pode ser visto o host (IP: 10.20.1.58) está "pingando" normal, mas o alarme não sai da tela Monitoramento>Triggers. Para solucionar está situação faço o add do host novamente no Zabbix do zero, mas acabo perdendo o histórico do mesmo.
Venho há algum tempo percebendo este comportamento e realizando alguns ajustes nas configs do Zabbix mas não tive sucesso em nenhuma das abordagens, se alguém poder dar uma luz TJM.
Uma breve apresentação: Administro uma plataforma Zabbix em ambiente de operadora de telecom, basicamente monitoramos ICMP Ping, status de interface (UP/DOWN) e SNMP dos ativos da rede como roteadores, switches, rádios, etc.
Iniciei essa empreitada instalando o Zabbix em um PC doméstico com base em estudos em forums, livros, videoaula e na documentação oficial - como muitos dizem "na unha", oque acredito ser, ou já ter sido a realidade de muitos. Hoje a plataforma tem uma função muito "entranhada" na operação da empresa sendo fundamental em muitos processos, mais estritamente na abertura de chamados proativos e alarmes (Telegram), com a expansão da rede, consequentemente a aumento de hosts e itens, o hardware da plataforma foi atualizado hoje contando com 02 servidores Dell r210 ( Zabbix e Mysql) sei que não é lá grande coisa mas no momento é o que tenho. Vamos aos dados:
Status Zabbix:
Internal Process Busy:
Gathering Process Busy:
O Problema:
Como mencionado o Zabbix monitora o status de muitos dispositivos da rede com o ICMP Ping - EX: Roteadores instalados em clientes (CPE).
A ideia é: Se o host estiver pingando OK, caso contrário é gerado um alarme na tela Monitoramento>Triggers e no Dashboard, dependendo da importância do host é gerado um alarme no Telegram.
Utilizo para este fim a key icmpping + Trigger:
Key icmpping:
Expresão do Trigger:
{Template Conectividade:icmpping[,{$PING},,,].last(#1)}=0 and {Template Conectividade:icmpping[,{$PING},,,].sum(#2)}=0
Dinâmica do Fato:
O que vem acontecendo é quando ocorre um incidente massivo, mesmo apos a normalização dos serviços alguns hosts permanecem com o status de inacessível, oque vem gerando aberturas de chamados e alarmes falsos. Por exemplo:
Ocorreu um incidente massivo (14-11-2018 15:04:12) que afetou um grupo de hosts que tornaram-se indisponíveis entre eles o host de IP 10.20.1.58 utilizado como exemplo, até este ponto o trigger de indisponibilidade atuou perfeitamente gerando o alarme na tela Monitoramento > Trigger; no entanto apos o incidente ser normalizado o trigger permanece na tela de alarmes.
Tela: Monitoramento > Triggers:
Como pode ser visto o host (IP: 10.20.1.58) está "pingando" normal, mas o alarme não sai da tela Monitoramento>Triggers. Para solucionar está situação faço o add do host novamente no Zabbix do zero, mas acabo perdendo o histórico do mesmo.
Venho há algum tempo percebendo este comportamento e realizando alguns ajustes nas configs do Zabbix mas não tive sucesso em nenhuma das abordagens, se alguém poder dar uma luz TJM.
Comment