Ad Widget

Collapse

Problemas com Trigger de ICMP PING

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • JCast638
    Junior Member
    • Nov 2018
    • 18

    #1

    Problemas com Trigger de ICMP PING

    Prezados,

    Uma breve apresentação: Administro uma plataforma Zabbix em ambiente de operadora de telecom, basicamente monitoramos ICMP Ping, status de interface (UP/DOWN) e SNMP dos ativos da rede como roteadores, switches, rádios, etc.
    Iniciei essa empreitada instalando o Zabbix em um PC doméstico com base em estudos em forums, livros, videoaula e na documentação oficial - como muitos dizem "na unha", oque acredito ser, ou já ter sido a realidade de muitos. Hoje a plataforma tem uma função muito "entranhada" na operação da empresa sendo fundamental em muitos processos, mais estritamente na abertura de chamados proativos e alarmes (Telegram), com a expansão da rede, consequentemente a aumento de hosts e itens, o hardware da plataforma foi atualizado hoje contando com 02 servidores Dell r210 ( Zabbix e Mysql) sei que não é lá grande coisa mas no momento é o que tenho. Vamos aos dados:

    Status Zabbix:

    Click image for larger version

Name:	Status do Zabbix.JPG
Views:	6237
Size:	45.4 KB
ID:	369174

    Internal Process Busy:

    Click image for larger version

Name:	Zabbix internal process busy.JPG
Views:	6171
Size:	62.5 KB
ID:	369175

    Gathering Process Busy:

    Click image for larger version

Name:	Zabbix Gathering Process Busy.jpg
Views:	6268
Size:	66.7 KB
ID:	369176

    O Problema:

    Como mencionado o Zabbix monitora o status de muitos dispositivos da rede com o ICMP Ping - EX: Roteadores instalados em clientes (CPE).
    A ideia é: Se o host estiver pingando OK, caso contrário é gerado um alarme na tela Monitoramento>Triggers e no Dashboard, dependendo da importância do host é gerado um alarme no Telegram.

    Utilizo para este fim a key icmpping + Trigger:


    Key icmpping:

    Click image for larger version

Name:	Iten ICMP PING.JPG
Views:	6332
Size:	68.7 KB
ID:	369177

    Expresão do Trigger:

    {Template Conectividade:icmpping[,{$PING},,,].last(#1)}=0 and {Template Conectividade:icmpping[,{$PING},,,].sum(#2)}=0



    Dinâmica do Fato:

    O que vem acontecendo é quando ocorre um incidente massivo, mesmo apos a normalização dos serviços alguns hosts permanecem com o status de inacessível, oque vem gerando aberturas de chamados e alarmes falsos. Por exemplo:

    Ocorreu um incidente massivo (14-11-2018 15:04:12) que afetou um grupo de hosts que tornaram-se indisponíveis entre eles o host de IP 10.20.1.58 utilizado como exemplo, até este ponto o trigger de indisponibilidade atuou perfeitamente gerando o alarme na tela Monitoramento > Trigger; no entanto apos o incidente ser normalizado o trigger permanece na tela de alarmes.

    Tela: Monitoramento > Triggers:

    Click image for larger version

Name:	Falso Alarme Zabbix.jpg
Views:	6227
Size:	100.1 KB
ID:	369178

    Como pode ser visto o host (IP: 10.20.1.58) está "pingando" normal, mas o alarme não sai da tela Monitoramento>Triggers. Para solucionar está situação faço o add do host novamente no Zabbix do zero, mas acabo perdendo o histórico do mesmo.
    Venho há algum tempo percebendo este comportamento e realizando alguns ajustes nas configs do Zabbix mas não tive sucesso em nenhuma das abordagens, se alguém poder dar uma luz TJM.
  • Hernandes Martins
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Apr 2011
    • 900

    #2
    Olá meu caro,

    Muito bem detalhado seu questionamento, sugiro apenas ajustar a sua trigger com a função Média(Average) = avg.

    Deixe-a mais simples e objetiva com apenas uma expressão, nesse primeiro momento.

    {Template Conectividade:icmpping[,{$PING},,,].avg(5m)}=0

    Depois se necessário adicione dependência de trigger, acredito que os seus CPEs dependem de um concentrador, então coloque a trigger do concentrador nos hosts que estão atrás deste concentrador.

    Outra sugestão é analisar os operadores que pode utilizar nas expressões: https://www.zabbix.com/documentation...iggers/trigger

    Abraços


    __

    Att.
    Hernandes Martins - Zabbix Trainer

    Zabbix Brazil Partner - www.luniobr.com

    Zabbix Brazil Community - www.zabbixbrasil.org

    Blog: hernandesmartins.blogspot.com.br

    Skype: hernandss
    Telegram: @MrHernandes

    Español
    Facebook: facebook.com/groups/zabbixlatam
    Telegram: https://t.me/ZabbixEspañol

    Português
    Facebook: facebook.com/groups/zabbixbrasil/
    Telegram: https://t.me/ZabbixBrasil

    Comment

    • JCast638
      Junior Member
      • Nov 2018
      • 18

      #3
      Perfeito Hernandes,

      Estou nesse momento realizando o ajuste sugerido na trigger, irei observar durante o decorrer do dia, e reporto noticias.

      Paz.

      Comment

      • JCast638
        Junior Member
        • Nov 2018
        • 18

        #4
        Prezados,

        Continuando...

        Acabo de ter um incidente - incidente ocorreu durante um intervalo de duas horas - massivo relacionado a infraestrutura elétrica que alimenta o switche onde o Zabbix Server está aprovisionado (conectado), durante o incidente o switche ligou e desligou por diversas vezes afetando a coleta de dados de todos os hosts da infraestrutura.

        Gathering Process durante a ocorrência da falha:

        Click image for larger version

Name:	Gathering_Process_Incidente.JPG
Views:	6108
Size:	70.4 KB
ID:	369282

        Sinceramente ainda tive ocorrências da falha descrita no primeiro post, no entanto, o número de hosts que não foram atualizados na tela Monitoramento -> Triggers foi consideravelmente menor:

        Click image for larger version

Name:	Problem_Persist.JPG
Views:	6146
Size:	62.3 KB
ID:	369283

        Como podemos observar o host 10.20.1.129, e todos os demais no print, além de estarem "pingando" não saem da tela Monitoramento -> Ping.
        Em sequência executei o restart do serviço do Zabbix (/etc/init.d/zabbix_server restart) e os hosts afetados pela falha sumiram da tela Moniramento -> Triggers. OK.

        Este novo fato fez-em voltar a atenção para o gráfico acima "Zabbix data gathering proccess busy" , principalmente para os dados que durante o incidente saturam os recursos de processamento, que podem estar afetando na coleta de dados e consequentemente os alarmes, são os dados de: Zabbix busy unreachable poller processes e Zabbix busy poller processes. Atualmente minha configuração está como segue (arquivo zabbix_server.conf):

        StartPollers = 30
        StartPollersUnreachable = 60


        Acredito serem estas duas variáveis nas quais tenho que trabalhar daqui pra frente, referente ao triggers sugerido pelo colega @Hernandes o mesmo está funcionando conforme o esperado - fica a dica de sempre tentar simplificar ao máximo as expressões dos triggers; considero também que um incidente como este que ocorreu hoje, afetando a coleta de todos os hosts monitorados, não é muito comum de acontecer, e é de se esperar um aumento no processamento referente a coleta de dados. Beleza galera estou aberto a sugestões.

        Abraços,
        Jefferson

        Comment

        Working...