Boa tarde,
Será que alguém poderia me dar uma ajuda de como tratar este tipo de problema, vamos lá.
Eu tenho alguns hosts IDRACs que estão com falhas recorrentes e intermitente onde já estamos tratando eles, porém como eles geram muitos alertas recorrentes acaba atrapalhando a estatísticas de alertas que temos e fora os ACKs que se perdem quando o alerta é resolvido, sabemos que a raiz do problema é o host e não o Zabbix, mas queria de alguma forma colocar um filtro nas TRIGGERs para só resolver após avaliar que o host não teve nenhum problema recente criado nas últimas 6hrs por exemplo.
Vamos supor assim:
Checagem do item acontece a cada 3 minutos.
Atualmente o meu filtro para gerar o problema é:
count(/HOST/ITEM.VALUE,#3,"gt",1)=3
E para resolver o problema é:
count(/HOST/ITEM.VALUE,#2,"lt",2)=2
Porém que o alerta fosse resolvido precisaria validar:
Se o host nas últimas 6 horas (120 checagens) não tivesse essa variação de valores, mas sem esperar 6 horas para isso. Ou seja, supondo que o valor esperado seja 1(um):
- Se o host nas últimas 6 horas tivesse apenas 20 retornos diferentes de 1(um) deve fechar o alerta;
- Se o host nas últimas 6 horas tivesse acima de 20 retornos diferentes de 1(um) deve manter o alerta;
- Se esta for a primeira ocorrência deste alerta dentro de 3 horas deveria fechar o alerta, mas se for a segunda ocorrência ou mais nas últimas 3 horas deverá seguir as validações acima.
Assim evitaria o alerta ficar abrindo e fechando recorrentemente.
Será que alguém poderia me dar uma ajuda de como tratar este tipo de problema, vamos lá.
Eu tenho alguns hosts IDRACs que estão com falhas recorrentes e intermitente onde já estamos tratando eles, porém como eles geram muitos alertas recorrentes acaba atrapalhando a estatísticas de alertas que temos e fora os ACKs que se perdem quando o alerta é resolvido, sabemos que a raiz do problema é o host e não o Zabbix, mas queria de alguma forma colocar um filtro nas TRIGGERs para só resolver após avaliar que o host não teve nenhum problema recente criado nas últimas 6hrs por exemplo.
Vamos supor assim:
Checagem do item acontece a cada 3 minutos.
Atualmente o meu filtro para gerar o problema é:
count(/HOST/ITEM.VALUE,#3,"gt",1)=3
E para resolver o problema é:
count(/HOST/ITEM.VALUE,#2,"lt",2)=2
Porém que o alerta fosse resolvido precisaria validar:
Se o host nas últimas 6 horas (120 checagens) não tivesse essa variação de valores, mas sem esperar 6 horas para isso. Ou seja, supondo que o valor esperado seja 1(um):
- Se o host nas últimas 6 horas tivesse apenas 20 retornos diferentes de 1(um) deve fechar o alerta;
- Se o host nas últimas 6 horas tivesse acima de 20 retornos diferentes de 1(um) deve manter o alerta;
- Se esta for a primeira ocorrência deste alerta dentro de 3 horas deveria fechar o alerta, mas se for a segunda ocorrência ou mais nas últimas 3 horas deverá seguir as validações acima.
Assim evitaria o alerta ficar abrindo e fechando recorrentemente.
Comment