Ad Widget

Collapse

Problema com itens em host (Ajuda)

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • SrTunes
    Member
    • Feb 2013
    • 37

    #1

    Problema com itens em host (Ajuda)

    Bom dia amigos,

    Estou aqui para pedir mais uma vez a ajuda de vocês. Ontem estava configurando um item novo em um templante, para fazer uma checagem de tamanho de pasta em um servidor de firewal com FreeBSD, então criei um parâmetro para fazer a consulta e retornar o valor:

    Code:
    UserParameter=vfs.dir.size[*],du -cs $1 | grep total | cut -f1
    O primeiro problema que tive é que quando eu, usando o zabbix_get, fazia a requisição no servidor do zabbix para checar o tamanho da pasta cache do squid com o comando abaixo:
    Code:
    zabbix_get -s'IP_SERVIDOR_FIREWALL' -p'10050' -k'vfs.dir.size[/var/squid/cache/]'
    Ele me retornava "NOTSUPORTED", percebi então que quando dava o comando localmente ele me retornava o valor, mas demorava mais de 3 segundos para isso. Então pensei "pode ser o timeout que esta baixo", ai entrei no zabbix_agentd.conf e coloquei o timeout para 30. Beleza! depois que fiz isso testei o zabbix_get e funcionou. Mas ai aconteceu outro problema:

    Depois de criar o item no template do Frebsd, percebi que não aparecia o item no servidor de firewall, achei estranho e resolvi olhar o log do zabbix server, ai me deparei com isso:

    Code:
    1400:20130626:082229.656 resuming Zabbix agent checks on host [servidor_de_firewall]: connection restored
      1397:20130626:082344.925 Zabbix agent item [vfs.dir.size[/var/squid/cache/]] on host [servidor_de_firewall] failed: first network error, wait for 15 seconds
      1400:20130626:082402.687 Zabbix agent item [vfs.dir.size[/var/squid/cache/]] on host [servidor_de_firewall] failed: another network error, wait for 15 seconds
      1400:20130626:082417.699 resuming Zabbix agent checks on host [servidor_de_firewall]: connection restored
    Quando olhei na fila do zabbix tinha varios itens deste servidor parados a muitas horas.

    No dia seguinte desativei o item para checar e percebi que alguns itens estavam na fila a mais de 15 horas edando o mesmo aviso no log.

    Pessoal, alguém tem alguma solução para esse meu problema, ou uma explicação.

    Desde ja fico muito agradecido por doarem o tempo precioso para ajudar alguém.
  • thiagolmelo
    Junior Member
    Zabbix Certified Trainer
    Zabbix Certified Specialist
    • Dec 2009
    • 27

    #2
    Oi, pergunta:

    De quanto em quanto tempo você colocou essa coleta?

    []s
    __________________
    --
    Thiago Melo
    [url]www.zabbix.com.br[/url]
    [url]www.uniredeinfo.com.br[/url]
    Porto Alegre - RS - Brasil

    Comment

    • SrTunes
      Member
      • Feb 2013
      • 37

      #3
      Originally posted by thiagolmelo
      Oi, pergunta:

      De quanto em quanto tempo você colocou essa coleta?

      []s
      Opa! Beleza thiagolmelo?

      Bem, eu coloquei a coleta para ser realizada de cinco em cinco minutos.

      Comment

      • thiagolmelo
        Junior Member
        Zabbix Certified Trainer
        Zabbix Certified Specialist
        • Dec 2009
        • 27

        #4
        Ve pra mim qual o valor do "UnreachablePeriod" no teu zabbix_server.conf
        __________________
        --
        Thiago Melo
        [url]www.zabbix.com.br[/url]
        [url]www.uniredeinfo.com.br[/url]
        Porto Alegre - RS - Brasil

        Comment

        • SrTunes
          Member
          • Feb 2013
          • 37

          #5
          Originally posted by thiagolmelo
          Ve pra mim qual o valor do "UnreachablePeriod" no teu zabbix_server.conf
          E ai cara!

          Então, no meu server esta assim:

          Code:
          ### Option: UnreachablePeriod
          #       After how many seconds of unreachability treat a host as unavailable.
          #
          # Mandatory: no
          # Range: 1-3600
          # Default:
          # UnreachablePeriod=45

          Comment

          • SrTunes
            Member
            • Feb 2013
            • 37

            #6
            Ainda com problema

            Percebi hoje que quando dou o comando no firewall:

            du -cs /var/squid/cache | grep total | cut -f1

            ele me retorna um valor, mas quando dou o comando no zabbix server:

            zabbix_get -s'IP_do_Firewall' -p'10050' -k'vfs.dir.size[/var/squid/cache]'

            ele me retorna um valor diferente, maior!

            Por favor, algum especialista esta por ai para me ajudar?

            Obrigado

            Comment

            • SrTunes
              Member
              • Feb 2013
              • 37

              #7
              ajuda

              Restartei o agente do zabbix no firewall e ele voltou a coletar o valor real pelo zabbix_get novamente.

              Mas ainda estou tendo o problema de conexão:

              failed: first network error, wait for 15 seconds

              Ajudem-me please

              Comment

              • SrTunes
                Member
                • Feb 2013
                • 37

                #8
                Resolução

                Originally posted by SrTunes
                Restartei o agente do zabbix no firewall e ele voltou a coletar o valor real pelo zabbix_get novamente.

                Mas ainda estou tendo o problema de conexão:

                failed: first network error, wait for 15 seconds

                Ajudem-me please
                Galera! Acho que resolvi meu problema, pois parou de aparecer a mensagem de falha na conexão.

                Para os que ainda estão tendo o problema, vou explicar aqui o que eu entendi sobre isso e o porque eu acho que estava dando esse problema.

                Como funciona a requisição de itens do zabbix server para o zabbix agente?

                Pelo que eu entendi (os especialistas que me corrijam), o zabbix server faz a requisição para o agente que recebe a requisição e processa, no meu caso o agente deveria executar um parametro que eu coloquei no zabbix_agentd.conf. Isso tudo é descrito no log do agente:

                Code:
                36355:20130710:102748.492 Requested [vfs.dir.size[/var/squid/cache/]]
                 36355:20130710:102748.492 In zbx_popen() command:'du -cs /var/squid/cache/ | grep total | cut -f1'
                 36355:20130710:102748.492 End of zbx_popen():8
                 36418:20130710:102748.493 zbx_popen(): executing script
                A primeira linha é a requisição do server para o agente, na segunda o agente coleta parametro e executa o comando através do zbx_popen() e aguarda a resposta, enquanto isso ele vai executando outros comandos requisitados também. Quando o comando recebe o valor solicitado ele retorna o valor para o server, como nas linhas abaixo:

                Code:
                36355:20130710:102749.690 Run remote command [du -cs /var/squid/cache/ | grep total | cut -f1] Result [7] [1127624]...
                 36355:20130710:102749.690 Sending back [1127624]
                O meu problema acho que estava no tempo de espera, pois esse comando solicita qual o tamanho do diretório "/var/squid/cache", só que este diretório é muito grande e levava por volta de 10 segundo para processar e retornar o valor. Como eu já tinha aumentado o timeout do agente do zabbix para 15 segundos, não entendia o porque da perda de conexão, pois eu havia esquecido que existe um timeout no zabbix server, que estava em 3 segundos, o que fazia com que requisições com espera acima de 3 segundos eram perdidas.

                A solução foi só aumentar o time out do server também.

                Se eu falei alguma besteira, por favor me corrijam.

                Comment

                Working...