Iniciei a poucas semanas minha jornada com Zabbix 2.0.6 tendo que implantar em meu ambiente, iniciando pelos ativos de rede (Switches e Roteadores).
Tenho cerca de 24 Pilhas de Switch com cada pilha tendo de 2 até 8 switches, sendo eles a maioria 3COM e alguns Extreme.
Até o presente momento estou começando pelas pilhas 3COM que são dos modelo E5500-EI e E5500G-EI.
Uma coisa que foi absurdamente util no primeiro momento foi o LLD que como a ultima vez que trabalhei com Zabbix foi na versão 1.8, não conhecia essa função.
Configurei um Template de LLD para os Switches que a principio funcionou perfeitamente. Fui aos poucos adicionando 1 por 1 e adicionando ao template, utilizo SNMPv3 com authpriv MD5 e DES (que são os unicos suportados pelo Zabbix).
O template LLD basicamente vai buscar, Stado, Descrição, Trafego de Entrada e saida, e Taxa de erros. e Montar um grafico com velocidade de entrada e saida e taxa de erros.
São criados cerca de 800-1700 itens por Switch, já verifiquei e nenhum dos itens aparece com erro no host, porém no log do zabbix eu obtenho esse tipo de mensagem:
31371:20130522:093847.071 SNMP item [ifAdminStatus[Ethernet1/0/39]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31370:20130522:093847.164 SNMP item [ifAdminStatus[Ethernet2/0/36]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31368:20130522:093847.317 SNMP item [ifDescr[Ethernet1/0/30]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31373:20130522:093847.580 SNMP item [ifDescr[Ethernet2/0/27]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31372:20130522:093847.997 SNMP item [ifHCInErrors[Ethernet1/0/21]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31374:20130522:093902.324 resuming SNMP checks on host [Switch_1_Andar]: connection restored
Isso acontece com aproxamadamente uns 5 Switches e quando acontece a Queue do Zabbix fica absurdamente alta nos itens com mais de 10min de Queue. Os gráficos começam a não serem montados de forma correta (fica apenas alguns pontos em alguns momentos do gráfico).
Fiz o teste desabilitando o monitoramento dos hosts que estavam apresentando este problema é alta porém não passa dos 30 segundos, raramento vai algo pra queue de 1 min. Os graficos estão sendo montados perfeitamente.
O mesmo modelo da pilha que dá o problema, existem outros que não acontecem, ja verifiquei e a configuração do SNMPv3 no Switch está correta, e os itens não apresentam nenhum erro no host.
Alguem poderia me ajudar com este problema??
Se precisarem de algum print, só avisar que eu printo oq precisar.
Tenho cerca de 24 Pilhas de Switch com cada pilha tendo de 2 até 8 switches, sendo eles a maioria 3COM e alguns Extreme.
Até o presente momento estou começando pelas pilhas 3COM que são dos modelo E5500-EI e E5500G-EI.
Uma coisa que foi absurdamente util no primeiro momento foi o LLD que como a ultima vez que trabalhei com Zabbix foi na versão 1.8, não conhecia essa função.
Configurei um Template de LLD para os Switches que a principio funcionou perfeitamente. Fui aos poucos adicionando 1 por 1 e adicionando ao template, utilizo SNMPv3 com authpriv MD5 e DES (que são os unicos suportados pelo Zabbix).
O template LLD basicamente vai buscar, Stado, Descrição, Trafego de Entrada e saida, e Taxa de erros. e Montar um grafico com velocidade de entrada e saida e taxa de erros.
São criados cerca de 800-1700 itens por Switch, já verifiquei e nenhum dos itens aparece com erro no host, porém no log do zabbix eu obtenho esse tipo de mensagem:
31371:20130522:093847.071 SNMP item [ifAdminStatus[Ethernet1/0/39]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31370:20130522:093847.164 SNMP item [ifAdminStatus[Ethernet2/0/36]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31368:20130522:093847.317 SNMP item [ifDescr[Ethernet1/0/30]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31373:20130522:093847.580 SNMP item [ifDescr[Ethernet2/0/27]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31372:20130522:093847.997 SNMP item [ifHCInErrors[Ethernet1/0/21]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
31374:20130522:093902.324 resuming SNMP checks on host [Switch_1_Andar]: connection restored
Isso acontece com aproxamadamente uns 5 Switches e quando acontece a Queue do Zabbix fica absurdamente alta nos itens com mais de 10min de Queue. Os gráficos começam a não serem montados de forma correta (fica apenas alguns pontos em alguns momentos do gráfico).
Fiz o teste desabilitando o monitoramento dos hosts que estavam apresentando este problema é alta porém não passa dos 30 segundos, raramento vai algo pra queue de 1 min. Os graficos estão sendo montados perfeitamente.
O mesmo modelo da pilha que dá o problema, existem outros que não acontecem, ja verifiquei e a configuração do SNMPv3 no Switch está correta, e os itens não apresentam nenhum erro no host.
Alguem poderia me ajudar com este problema??
Se precisarem de algum print, só avisar que eu printo oq precisar.
Comment