Ad Widget

Collapse

Problema Coleta Informaçoes dos Itens

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • acqc.augusto
    Junior Member
    • May 2013
    • 3

    #1

    Problema Coleta Informaçoes dos Itens

    Iniciei a poucas semanas minha jornada com Zabbix 2.0.6 tendo que implantar em meu ambiente, iniciando pelos ativos de rede (Switches e Roteadores).
    Tenho cerca de 24 Pilhas de Switch com cada pilha tendo de 2 até 8 switches, sendo eles a maioria 3COM e alguns Extreme.
    Até o presente momento estou começando pelas pilhas 3COM que são dos modelo E5500-EI e E5500G-EI.
    Uma coisa que foi absurdamente util no primeiro momento foi o LLD que como a ultima vez que trabalhei com Zabbix foi na versão 1.8, não conhecia essa função.
    Configurei um Template de LLD para os Switches que a principio funcionou perfeitamente. Fui aos poucos adicionando 1 por 1 e adicionando ao template, utilizo SNMPv3 com authpriv MD5 e DES (que são os unicos suportados pelo Zabbix).
    O template LLD basicamente vai buscar, Stado, Descrição, Trafego de Entrada e saida, e Taxa de erros. e Montar um grafico com velocidade de entrada e saida e taxa de erros.
    São criados cerca de 800-1700 itens por Switch, já verifiquei e nenhum dos itens aparece com erro no host, porém no log do zabbix eu obtenho esse tipo de mensagem:

    31371:20130522:093847.071 SNMP item [ifAdminStatus[Ethernet1/0/39]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
    31370:20130522:093847.164 SNMP item [ifAdminStatus[Ethernet2/0/36]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
    31368:20130522:093847.317 SNMP item [ifDescr[Ethernet1/0/30]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
    31373:20130522:093847.580 SNMP item [ifDescr[Ethernet2/0/27]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
    31372:20130522:093847.997 SNMP item [ifHCInErrors[Ethernet1/0/21]] on host [Switch_1_Andar] failed: first network error, wait for 15 seconds
    31374:20130522:093902.324 resuming SNMP checks on host [Switch_1_Andar]: connection restored

    Isso acontece com aproxamadamente uns 5 Switches e quando acontece a Queue do Zabbix fica absurdamente alta nos itens com mais de 10min de Queue. Os gráficos começam a não serem montados de forma correta (fica apenas alguns pontos em alguns momentos do gráfico).
    Fiz o teste desabilitando o monitoramento dos hosts que estavam apresentando este problema é alta porém não passa dos 30 segundos, raramento vai algo pra queue de 1 min. Os graficos estão sendo montados perfeitamente.
    O mesmo modelo da pilha que dá o problema, existem outros que não acontecem, ja verifiquei e a configuração do SNMPv3 no Switch está correta, e os itens não apresentam nenhum erro no host.

    Alguem poderia me ajudar com este problema??
    Se precisarem de algum print, só avisar que eu printo oq precisar.
  • eduwutzl
    Senior Member
    Zabbix Certified Specialist
    • Jul 2010
    • 314

    #2
    Boa noite.

    Primeiramente gostaria de agradecer e não adicionar perguntas genéricas aqui.
    Segundamente (rs) te parabenizar em ler a documentação do sistema.
    Terceiramente falar pra você adicionar poller de snmp . Se tiver 10 passe pra 30 e vá testando.

    Se o problema persistir, me passa aqui também, se esta usando zabbix proxy (dica.... Use!) e tente segmentar sua monitoração tornando-a distribuída .


    Qualquer coisa, posta aqui.

    Eduardo Wutzl da Silva
    SRE Engenharia de Monitoração e Observabilidade

    Comment

    • acqc.augusto
      Junior Member
      • May 2013
      • 3

      #3
      Bom dia,

      Primeiramente, agradeço sua ajuda.

      Atualmente meu Zabbix é uma maquina virtual com 4 processadores de 2.6Ghz 2Gb mem Linux Red Hat.
      Estou monitorando cerca de 40 Hosts inicialmente. Esses hosts são switches e Roteadores e como estou monitorando throughput de porta a quantidade de itens que atualmente está em 15 mil, porém estou com varios hosts desativados, no final de tudo esse numero de itens subira facilmente para 30 mil, monitorando apenas os ativos de rede.
      Já estou utilizando 30 Pollers, porém estou preocupado em questão de performance. Meu processamento está sempre a 100% dos 4CPUs, como essa maquina virtual ainda está em um ambiente de homologação, estou despreocupado por enquanto, mas antes de levar-la para um ambiente de produção preciso resolver a causa do alto processamento (que começou justamente quando aumentei o numero de pollers).
      Dando uma fuçada em alguns tutoriais ví que posso estar tendo problema com performance do banco. Aqui no orgão temos uma equipe especializada em Oracle, pedi que fosse disponibilizado para mim uma instancia ou em uma maquina Intel ou em uma Maquina AIX de uma banco Oracle. Já que a equipe é especializada em Tuning de BD eles poderam me ajudar nessa parte.
      Atualente está rodando 25 hosts com 15k itens e meus graficos estão sendo gerados cheios de "buracos". Assim que o pessoal de banco disponibilizar a instancia e for configurado, eu te aviso como está a performance.

      Comment

      • eduwutzl
        Senior Member
        Zabbix Certified Specialist
        • Jul 2010
        • 314

        #4
        Tá.
        Olha só, graficos com buracos, geralmente, é falta de pollers.
        Outra coisa, o banco do zabbix, de sempre preferência e brigue por isso.... USE MySQL.

        Outra coisa, me parece não estar usando PROXY?
        Cara, usa proxy.... voce consegue segmentar varias coisas, inclusive problemas desse tipo.

        Fique tranquilo, porque seu processamento, precisa cair!
        E não é a quantidade de pollers de agente, é pollers de SNMP (na conf do server seja proxy ou sem proxy, tem esta especificação).

        SNMP no teu caso tá..... se fosse agente, seria o poller de agente......

        Precisa, me avisa aqui....

        Eduardo Wutzl da Silva
        SRE Engenharia de Monitoração e Observabilidade

        Comment

        • acqc.augusto
          Junior Member
          • May 2013
          • 3

          #5
          Bom dia,

          O problema que temos em segmentar esse monitoramento atravez de proxies é que o pessoal aqui está "regando" licenças red hat, e não podemos ter outra distribuição instalada. Pedi uma instancia de um banco Oracle em outro servidor porque temos uma equipe de DBA certificada em Tunning de banco.

          Fica tão ruim assim a performance com banco Oracle??
          Estou na expectativa que retirar o banco do servidor do Zabbix aumente bastante minha performance.
          Estou no aguardo desta instancia ainda quando for disponibilizada eu posto minha impressões.

          Quanto aos pollers, no arquivo zabbix_server.conf eu pus 30 StartPollers, pelo que li são os pollers responsaveis pela coleta SNMP, só fez aumentar o consumo de processamentoe o problema persiste.

          Atualmente tenho 15 Pilhas de Switches 3COM, 7 roteadores Cisco e 2 Pilhas de Switch Extreme. Totalizando em mais de 21 mil itens

          Em todos os Switches estou utilizando SNMPv3 isso pode ser a causa de estar tao sobrecarregado??

          Comment

          Working...