Ad Widget

Collapse

slow query select distinct t.triggerid

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • cros
    Member
    • Jul 2017
    • 87

    #1

    slow query select distinct t.triggerid

    ola a todos,

    Peço uma orientação, uma luz que possa clarear um inseto no escuto kkkk, seria sobre um problema que estou tendo em todas as coletas no Zabbix.

    Vou explicar:
    Apos meses de coletas, utilizando o zabbix normalmente, o Zabbix começou a falhar nas coletas e apresentou erros na LOG e o impacto disso foi, um buraco diário as 21:25 em todos os meus gráficos, isso quando não coloca o serviço do zabbix_server em stop.


    Conforme erro abaixo, ja tentei aumentar p 1G o HistoryIndexCacheSize porem nao adiantou, ainda nao fiz upgrade de versao de 3.0.3 para 3.0.10 conforme orientaçao da propria zabbix sia , que diz que nao é bug, que é normal, mas pra mim isso nao é normal e se isso acontecer com os demais, é importante resolver essa perda de coleta, os meus usuarios que utilizarem a feramenta, se precisarem fazer algum troubleshooting e nao estiver monitoramento, a ferramenta perde utilizadade e isso é muito ruim, aqui a ferramenta é mal vista, entao estou compartilhando este problema tanto no quesito ajuda, quanto no quesito ajudar alguem no futuro, se esse problema aconteceu comigo, pode muito bem acontecer com voces tambem.

    se alguem poder ajudar ficarei grato.

    zabbix 3.0.3
    hosts: 10mil
    itens: 47mil
    triggers: 35mil



    Segue abaixo um exemplo de alguns registros na log, nao coloquei o arquivo todo, so alguns erros:

    .
    .
    .
    19078:20170718:212541.806 slow query: 3.014750 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"
    .
    .
    .
    19609:20170718:223758.678 [file:dbcache.c,line:2610] zbx_mem_realloc(): out of memory (requested 755232 bytes)
    19609:20170718:223758.678 [file:dbcache.c,line:2610] zbx_mem_realloc(): please increase HistoryIndexCacheSize configuration parameter
    .
    .
    .
    19077:20170718:224136.526 Zabbix Server stopped. Zabbix 3.0.3 (revision 60173).
    Last edited by cros; 24-07-2017, 15:29.
  • eduwutzl
    Senior Member
    Zabbix Certified Specialist
    • Jul 2010
    • 314

    #2
    Vou tentar lhe ajudar.

    Buraco nos gráficos:

    Como esta a utilização de Pollers de coleta em seu ambiente?
    Voce usa zabbix-proxy?
    Roda backup neste horário?
    Seu zabbix esta virtualizado?

    Versão do SO?Versão do MySQL e arquivo de configuração!
    Utilização de CPU, Memória, Disco e Fila de gravação do servidor de banco de dados.

    Qual sua topologia de monitoramento?

    Eduardo Wutzl da Silva
    SRE Engenharia de Monitoração e Observabilidade

    Comment

    • cros
      Member
      • Jul 2017
      • 87

      #3
      Slow query

      obrigado pela tentativa de ajuda eduardo, eu achei q ninguem ia me responder.

      bom vamos la, algunas das informaçoes eu preciso levantar c o pessoal aqui e te respondo logo mais.

      Como esta a utilização de Pollers de coleta em seu ambiente?
      R: inseri uma imagem c grafico dos pollers
      obs: inseri tb outra imagen contendo os buracos nos graficos.

      Voce usa zabbix-proxy?
      R: nao

      Roda backup neste horário?
      R: sei da existencia de backup, porem preciso confirmar o horário. (PENDENTE)

      Seu zabbix esta virtualizado?
      R: sim ele esta instalado em blade e o banco de dados esta separado em cloud.

      Versão do SO?
      R: Red hat 6.6

      Versão do MySQL e arquivo de configuração!
      R: 5.5 o arquivo inseri em anexo.

      Utilização de CPU, Memória, Disco e Fila de gravação do servidor de banco de dados.
      R: preciso levantar esta informaçao. (PENDENTE)

      Qual sua topologia de monitoramento?
      R: nao sei se eu entendi direito, mas o zabbix server e frontend estao em um servidor virtual e bd mysql esta nuvem (cloud), monitoro equipamentos de rede, usando o snmp agent.

      Acrescentei uma pergunta.
      Versão do zabbix?
      R: 3.0.3

      eu tinha aumentado o HistoryIndexCacheSize para 1G mais nao deu em nada, dai voltei para 256M.
      Attached Files
      Last edited by cros; 24-07-2017, 16:31. Reason: inserir imagem

      Comment

      • eduwutzl
        Senior Member
        Zabbix Certified Specialist
        • Jul 2010
        • 314

        #4
        Ótimo! Com as informações que passou, já conseguimos começar a caminhar!

        Eu não encontrei o gráfico de utilização de pollers. Então em sua próxima resposta, aproveite e coleque também a utilização dos caches e dos processos internos (ex: configuration syncer).

        Todos estes gráficos são nativos no template zabbix-server.

        Você esta monitorando 10.000 equipamentos e imagino que eles estão em sites diferentes. Com abertura de buracos, acredito que exista uma dificuldade do zabbix conseguir coletar estas informações então acho que vale a pena estudar a possibilidade de implementar coletores (zabbix proxy) nestas localidades.

        Para entender melhor como funciona o zabbix proxy, recomendo a leitura do manual zabbix na sessão Conceitos Zabbix e coletores Remotos.

        Sobre o banco estar fora da sua rede local, recomendo fortemente também levar a aplicação (zabbix-server) para a núvem, deixando apenas coletores em sua rede.

        Com isto você evita corromper sua base de dados.

        Isto deve ser o suficiente para o momento! Aguardo novas informações.

        Eduardo Wutzl da Silva
        SRE Engenharia de Monitoração e Observabilidade

        Comment

        • cros
          Member
          • Jul 2017
          • 87

          #5
          Slow query

          É entao o forum nao esta deixando eu adicionar a imagem, estou tentando add a imagem.

          O template eu criei um simples do zero para monitorar apenas 3 itens de cada roteador, nao usei o template nativo pq monitora coisas demais.
          Monitor apenas essa 3 infos do roteador.
          ifOutOctets["index","ifDescr","Serial0/1/0"]
          ifInOctets["index","ifDescr","Serial0/1/0"]
          ifSpeed["index","ifDescr","Serial0/1/0"]

          O uso do proxy no meu cenário não seria viavel vou dizer o pq, o zabbix server esta localizado na matriz, os roteadores q esatao sendo monitorado estao nas filiais, monitoro apenas o roteador da operadora nao o resto dos equipamentos naquela localidade, entao eu monitoro apenas um unico equipamento por localidade, se fosse p monitorar um predio inteiro com varios roteadores e switches na mesma localidade, entendo q assim seria mais adequado c o zabbix proxy como vc imaginou, mas meu ambiente é 1 por localidade.

          Monitoro 5 mil filiais, onde cada uma existem, 1 roteador titular e 1 backup, monitoro apenas a porta de borda, porta wan p ser mais especifico.

          Referente ao seu comentario de nuvem para a aplicaçao, futuramente sera feito, vai demorar um pouco p acontecer.

          Comment

          • cros
            Member
            • Jul 2017
            • 87

            #6
            Slow query

            LogFile=/tmp/zabbix_server.log
            LogFileSize=300
            DebugLevel=3
            DBHost=10.y.y.y
            DBName=zabbix
            DBUser=zabbix
            DBPassword=zabbix
            DBPort=3306
            StartPollers=80
            StartIPMIPollers=10
            StartPollersUnreachable=100
            StartTrappers=20
            StartPingers=50
            StartDiscoverers=150
            StartHTTPPollers=5
            StartTimers=5
            StartJavaPollers=0
            StartVMwareCollectors=0
            VMwareFrequency=3600
            StartSNMPTrapper=0
            HousekeepingFrequency=0
            MaxHousekeeperDelete=0
            SenderFrequency=120
            CacheSize=128M
            CacheUpdateFrequency=60
            StartDBSyncers=8
            HistoryCacheSize=128M
            HistoryIndexCacheSize=256M
            TrendCacheSize=512M
            ValueCacheSize=256M
            Timeout=15
            UnreachablePeriod=45
            UnavailableDelay=60
            UnreachableDelay=15
            LogSlowQueries=3000
            StartProxyPollers=20
            ProxyConfigFrequency=3600
            ProxyDataFrequency=60

            Comment

            • eduwutzl
              Senior Member
              Zabbix Certified Specialist
              • Jul 2010
              • 314

              #7
              Pela caracteristica que e informações que me passou, eu iria sugerir aumentar o timeout mas vejo que você já usa um timeout de 15 segundos e a impressão que tenho é que voce esta sofrendo uma perda de comunicação tanto entre a aplicação e database como a aplicação e suas filiais.

              Acho bem válido isolar os componentes subindo a estrutura da nuvem e talvez monitorar suas filias atraves da nuvem ou colocar um coletor em sua melhor posição.

              Estou quase certo de que seu problema é estrutural e se o seu zabbix ficar no meio de um ambiente instavel, ele será instavel também (que é o seu caso).

              Sobre as pessoas não gostarem do zabbix, fique tranquilo! Ninguem gosta daquilo que mostra PROBLEMAS!

              Um grande abraço e boa sorte em sua reestruturação! =)

              Eduardo Wutzl da Silva
              SRE Engenharia de Monitoração e Observabilidade

              Comment

              • eduwutzl
                Senior Member
                Zabbix Certified Specialist
                • Jul 2010
                • 314

                #8
                Outro detalhe.... ligue o housekeeper! O Zabbix precisa limpar a base de dados e tenha mais paciencia quando ele estiver rodando!

                Aumente também a urgencia de migrar a aplicação pra nuvem ou aproximar o banco da aplicação!

                Eduardo Wutzl da Silva
                SRE Engenharia de Monitoração e Observabilidade

                Comment

                • cros
                  Member
                  • Jul 2017
                  • 87

                  #9
                  Slow query

                  É entao, eu tinha desabilitado o a limpeza da governanta, kkkk, housekeeper ne, bom agora eu habilitei novamente, pq eu acha q o problema seria no housekeeper, porem nao ne.

                  Iniciei hj a monitoraçao do ip deste banco de dados para ver o tempo de resposta (latencia), apesar q na hora que as coletas param de verificar eu nao vou conseguir ver a coleta de latencia.

                  A nuvem neste caso, ela esta aki dentro da empresa mesmo e o nucleo de rede é de alta velocidade em giga, um traceroute respondeu apenas 4 saltos com 3 milissegundos, isso representa 0,003 segundos, o fator rede nao deveria impactar na comunicaçao do zabbix server e mysql, porem tudo pode ocorrer, eu estava analisando a query o zabbix esta execuntado queries de 3 a 4 segundos cada e sao varias destas que aparecem na log, agora fica a pergunta.

                  O que o zabbix estaria fazendo naquele mesmo bat horario, naquel mesmo bat canal e naquela mesma bat query?

                  Esta "long_query_time" do mysql pode ter q valor configurado ?

                  obs: o housekeeper neste dia estava desativado quando peguei esta log abaixo:

                  Varias linhas destas apenas mudando o intervalo no between.

                  slow query: 3659.435206 sec, "update item_discovery s
                  et lastcheck=1499127960 where itemid between 86802 and 86853;

                  Varias linhas deste tb mudando o hostid:

                  slow query: 3673.920931 sec, "update hosts set snmp_d
                  isable_until=1499128006 where hostid=11081"

                  Ainda estou investigando tb o q da p fazer p nao perder coletas.
                  Last edited by cros; 25-07-2017, 15:49.

                  Comment

                  • eduwutzl
                    Senior Member
                    Zabbix Certified Specialist
                    • Jul 2010
                    • 314

                    #10
                    Update ou Insert de dados na base! O Zabbix faz isto a todo momento e acredito fortemente que você não deve se preocupar com a base caso ela não seja o gargalo.

                    Eduardo Wutzl da Silva
                    SRE Engenharia de Monitoração e Observabilidade

                    Comment

                    • cros
                      Member
                      • Jul 2017
                      • 87

                      #11
                      Slow query

                      Eu nao cheguei a fazer nenhuma tunagem de mysql, somente no arquivo do zabbix_server.conf, o bd tem um hd d 750GB, atualmente ele possui 87GB de uso, o engraçado que ja estou com o zabbix a mais de 6 meses e so agora que esta acontecendo estes eventos.

                      Porque antes nao acontecia e agora acontece todos os dias?

                      Misterios

                      Comment

                      • eduwutzl
                        Senior Member
                        Zabbix Certified Specialist
                        • Jul 2010
                        • 314

                        #12
                        Que eventos?
                        Update e Insert na base?

                        Preciso de mais clareza sobre sua dúvida!

                        Eduardo Wutzl da Silva
                        SRE Engenharia de Monitoração e Observabilidade

                        Comment

                        • cros
                          Member
                          • Jul 2017
                          • 87

                          #13
                          Slow query

                          Que eventos?
                          R: ah nao sim, me refiro aos buracos nos graficos na execucao destas queries q o zabbix esta processando.

                          Update e Insert na base?
                          R: update

                          -------------------------------------------------------------------------------------
                          olha so uma coisa que percebi, neste periodo sem coleta dos itens, os buracos nos graficos, o zabbix faz todas estas queries de update, tem um insert no final, mas se contabilizar esses segundos nao era para dar tanto tempo assim em minutos.

                          Agora observe as queries abaixo quantas q aparecem seguidas e sem outras diferenciadas, nao tem get snmp ocorrendo:

                          -------------------------------------------------------------------------------------

                          14552:20170714:223352.288 slow query: 4101.565268 sec, "update hosts set snmp_disable_until=1500078390 where hostid=20955"
                          14529:20170714:223352.289 slow query: 4101.541562 sec, "update hosts set snmp_disable_until=1500078390 where hostid=10985"
                          14819:20170714:223352.290 slow query: 4096.763073 sec, "select null from dchecks where dcheckid=160 and druleid=151 for update"
                          14818:20170714:223352.293 slow query: 4101.333675 sec, "select null from dchecks where dcheckid=159 and druleid=150 for update"
                          14521:20170714:223352.298 slow query: 4101.318042 sec, "update hosts set snmp_errors_from=0,snmp_disable_until=0 where hostid=20238"
                          14526:20170714:223352.298 slow query: 4101.526836 sec, "update hosts set snmp_disable_until=1500078345 where hostid=19629"
                          14532:20170714:223352.298 slow query: 4100.545805 sec, "update hosts set snmp_disable_until=1500078391 where hostid=10981"
                          14542:20170714:223352.302 slow query: 4090.281297 sec, "update hosts set snmp_errors_from=1500078342,snmp_disable_until=150 0078357 where hostid=20227"
                          14510:20170714:223352.302 slow query: 4090.525380 sec, "update hosts set snmp_disable_until=1500078401 where hostid=19821"
                          14496:20170714:223352.302 slow query: 4099.035639 sec, "update hosts set snmp_errors_from=1500078333,snmp_disable_until=150 0078348 where hostid=20243"
                          14535:20170714:223352.303 slow query: 4099.865837 sec, "update hosts set snmp_disable_until=1500078392 where hostid=10998"
                          14518:20170714:223352.303 slow query: 4098.579825 sec, "update hosts set snmp_disable_until=1500078393 where hostid=20649"
                          14556:20170714:223352.303 slow query: 4090.297417 sec, "update hosts set snmp_disable_until=1500078402 where hostid=15080"
                          14514:20170714:223352.303 slow query: 4095.569208 sec, "update hosts set snmp_disable_until=1500078396 where hostid=11081"
                          14567:20170714:223352.303 slow query: 4098.550716 sec, "update hosts set snmp_disable_until=1500078393 where hostid=11003"
                          14534:20170714:223352.304 slow query: 4090.360031 sec, "update hosts set snmp_disable_until=1500078401 where hostid=14824"
                          14568:20170714:223352.304 slow query: 4094.547133 sec, "update hosts set snmp_disable_until=1500078397 where hostid=15153"
                          14543:20170714:223352.304 slow query: 4090.299326 sec, "update hosts set snmp_disable_until=1500078402 where hostid=14859"
                          14516:20170714:223352.304 slow query: 4093.543633 sec, "update hosts set snmp_disable_until=1500078398 where hostid=14202"
                          14512:20170714:223352.305 slow query: 4091.531809 sec, "update hosts set snmp_disable_until=1500078400 where hostid=21219"
                          14549:20170714:223352.305 slow query: 4090.299146 sec, "update hosts set snmp_disable_until=1500078402 where hostid=14938"
                          14562:20170714:223352.305 slow query: 4097.548397 sec, "update hosts set snmp_disable_until=1500078394 where hostid=21411"
                          14561:20170714:223352.305 slow query: 4090.516686 sec, "update hosts set snmp_disable_until=1500078356 where hostid=19632"
                          14537:20170714:223352.306 slow query: 4090.305609 sec, "update hosts set snmp_disable_until=1500078401 where hostid=14830"
                          14513:20170714:223352.306 slow query: 4090.485137 sec, "update hosts set snmp_disable_until=1500078401 where hostid=20665"
                          14538:20170714:223352.306 slow query: 4094.586041 sec, "update hosts set snmp_disable_until=1500078397 where hostid=11064"
                          14540:20170714:223352.306 slow query: 4090.301858 sec, "update hosts set snmp_disable_until=1500078402 where hostid=14845"
                          14984:20170714:223352.307 slow query: 4100.654004 sec, "insert into history_uint (itemid,clock,ns,value) values (72737,1500078331,646320593,48696);
                          "
                          14565:20170714:223352.307 slow query: 4089.931756 sec, update hosts set snmp_available=2,snmp_error='Timeout while connecting to ""10.148.36.52:161"".',snmp_disable_until=15000784 02 where hostid=20256"""
                          14491:20170714:223352.307 slow query: 4096.018754 sec, "update hosts set snmp_errors_from=1500078336,snmp_disable_until=150 0078351 where hostid=20224"
                          14545:20170714:223352.308 slow query: 4092.542634 sec, "update hosts set snmp_disable_until=1500078399 where hostid=11043"
                          14979:20170714:223352.308 slow query: 4098.649100 sec, "insert into history_uint (itemid,clock,ns,value) values (75670,1500078333,651107350,144);
                          "
                          14519:20170714:223352.308 slow query: 4097.481564 sec, update hosts set snmp_errors_from=0,snmp_disable_until=0 where hostid=19626"""
                          14541:20170714:223352.309 slow query: 4098.601751 sec, "update hosts set snmp_disable_until=1500078393 where hostid=10208"
                          14976:20170714:223352.309 slow query: 4099.478351 sec, "insert into history_uint (itemid,clock,ns,value) values (75665,1500078332,827334617,1024000);
                          "
                          14559:20170714:223352.309 slow query: 4090.362587 sec, update hosts set snmp_disable_until=1500078401 where hostid=14827"""
                          14539:20170714:223352.309 slow query: 4089.298343 sec, "update hosts set snmp_disable_until=1500078403 where hostid=20875"
                          14530:20170714:223352.310 slow query: 4099.643028 sec, "update hosts set snmp_disable_until=1500078392 where hostid=10854"
                          14550:20170714:223352.310 slow query: 4090.304836 sec, "update hosts set snmp_disable_until=1500078402 where hostid=14997"
                          14547:20170714:223352.310 slow query: 4093.175405 sec, "update hosts set snmp_errors_from=0,snmp_disable_until=0 where hostid=19623"
                          14571:20170714:223352.310 slow query: 4097.553649 sec, "update hosts set snmp_disable_until=1500078394 where hostid=21422"
                          14531:20170714:223352.311 slow query: 4092.545382 sec, "update hosts set snmp_disable_until=1500078399 where hostid=11010"
                          14481:20170714:223352.311 slow query: 4093.987658 sec, "update hosts set snmp_errors_from=1500078338,snmp_disable_until=150 0078353 where hostid=20237"
                          14525:20170714:223352.311 slow query: 4090.305519 sec, "update hosts set snmp_disable_until=1500078402 where hostid=13697"
                          14569:20170714:223352.311 slow query: 4089.962613 sec, "update hosts set snmp_disable_until=1500078357 where hostid=10299"
                          14528:20170714:223352.311 slow query: 4092.545909 sec, "update hosts set snmp_disable_until=1500078399 where hostid=11139"
                          14533:20170714:223352.312 slow query: 4099.567594 sec, "update hosts set snmp_disable_until=1500078392 where hostid=10875"
                          14554:20170714:223352.312 slow query: 4096.555138 sec, "update hosts set snmp_disable_until=1500078395 where hostid=11056"
                          14546:20170714:223352.312 slow query: 4089.300482 sec, "update hosts set snmp_disable_until=1500078403 where hostid=14238"
                          14522:20170714:223352.312 slow query: 4097.318873 sec, "update hosts set snmp_disable_until=1500078349 where hostid=20252"
                          14458:20170714:223352.313 slow query: 4089.999992 sec, "update hosts set snmp_errors_from=1500078342,snmp_disable_until=150 0078357 where hostid=19619"
                          14485:20170714:223352.313 slow query: 4087.796102 sec, "update hosts set snmp_errors_from=1500078344,snmp_disable_until=150 0078359 where hostid=10303"
                          14467:20170714:223352.313 slow query: 4084.928383 sec, "update hosts set snmp_errors_from=1500078347,snmp_disable_until=150 0078362 where hostid=20249"
                          14450:20170714:223352.313 slow query: 4084.046556 sec, "update hosts set snmp_errors_from=1500078348,snmp_disable_until=150 0078363 where hostid=10308"
                          14548:20170714:223352.313 slow query: 4097.556710 sec, "update hosts set snmp_disable_until=1500078394 where hostid=10985"
                          14564:20170714:223352.314 slow query: 4095.485641 sec, "update hosts set snmp_errors_from=0,snmp_disable_until=0 where hostid=10309"
                          14503:20170714:223352.314 slow query: 4085.853165 sec, "update hosts set snmp_errors_from=1500078346,snmp_disable_until=150 0078361 where hostid=20253"
                          "
                          14502:20170714:223352.327 slow query: 4085.040454 sec, update item_discovery set lastcheck=1500078347 where itemid between 87374 and 87417;"
                          "
                          14484:20170714:223352.327 slow query: 4100.212434 sec, update item_discovery set lastcheck=1500078332 where itemid between 86861 and 86900;"
                          "
                          14495:20170714:223352.328 slow query: 4091.988351 sec, update item_discovery set lastcheck=1500078340 where itemid between 87317 and 87352;"
                          "
                          14454:20170714:223352.330 slow query: 4085.273021 sec, update item_discovery set lastcheck=1500078346 where itemid between 82586 and 82669;"
                          14505:20170714:223352.334 slow query: 4099.907082 sec, "update item_discovery set lastcheck=1500078332 where itemid between 86915 and 86966;
                          "
                          14483:20170714:223352.334 slow query: 4094.301233 sec, update item_discovery set lastcheck=1500078337 where itemid between 90135 and 90190;"
                          "
                          14492:20170714:223352.334 slow query: 4099.985119 sec, update item_discovery set lastcheck=1500078332 where (itemid between 75940 and 75954 or itemid between 75957 and 75971 or itemid between 75974 and 75988);"
                          "
                          14809:20170714:223352.334 slow query: 3801.926297 sec, update triggers set lastchange=1500078630,value=1 where triggerid=13491;"
                          "
                          14523:20170714:223352.335 slow query: 4096.638023 sec, update hosts set snmp_disable_until=1500078395 where hostid=10981"""
                          14488:20170714:223352.338 slow query: 4073.675089 sec, "update item_discovery set lastcheck=1500078358 where itemid between 90970 and 91001;
                          "
                          14811:20170714:223352.338 slow query: 3051.940937 sec, update triggers set state=1,error='Cannot evaluate function ""113583-07146-AG_NOVA_PAROLIN_URB_CURITIBA_RTB:icmpping[,2,30,32,4000].max(20m)"".' where triggerid=18698;"
                          14475:20170714:223352.341 slow query: 4089.752466 sec, "update item_discovery set lastcheck=1500078342 where itemid between 82401 and 82484;
                          "
                          14487:20170714:223352.341 slow query: 4093.187822 sec, update item_discovery set lastcheck=1500078339 where itemid between 85565 and 85604;"
                          "
                          14461:20170714:223352.342 slow query: 4101.331848 sec, update item_discovery set lastcheck=1500078330 where itemid between 86802 and 86853;"
                          "
                          14470:20170714:223352.342 slow query: 4083.065235 sec, update item_discovery set lastcheck=1500078349 where itemid between 88682 and 88717;"
                          "
                          14479:20170714:223352.342 slow query: 4092.301417 sec, update item_discovery set lastcheck=1500078339 where itemid between 85612 and 85687;"
                          "
                          14536:20170714:223352.342 slow query: 4089.330759 sec, update hosts set snmp_disable_until=1500078403 where hostid=14202"""
                          14469:20170714:223352.343 slow query: 4089.987270 sec, "update item_discovery set lastcheck=1500078342 where itemid between 88602 and 88637;
                          "
                          14474:20170714:223352.343 slow query: 4093.668272 sec, update item_discovery set lastcheck=1500078338 where itemid between 89965 and 89996;"
                          "
                          14498:20170714:223352.344 slow query: 4084.988424 sec, update item_discovery set lastcheck=1500078347 where itemid between 85766 and 85821;"
                          "
                          14453:20170714:223352.346 slow query: 4099.672557 sec, update item_discovery set lastcheck=1500078332 where itemid between 89745 and 89804;"
                          "
                          14473:20170714:223352.346 slow query: 4089.983134 sec, update item_discovery set lastcheck=1500078342 where itemid between 85699 and 85758;"
                          "
                          14477:20170714:223352.347 slow query: 4096.196005 sec, update item_discovery set lastcheck=1500078336 where (itemid between 85472 and 85479 or itemid between 85481 and 85488 or itemid between 85490 and 85497 or itemid between 85499 and 85506 or itemid in (90001,90002,90003,90004,90332,90333,90334,90335)) ;"
                          "
                          14551:20170714:223352.347 slow query: 4095.791837 sec, update hosts set snmp_disable_until=1500078396 where hostid=10998"""
                          14472:20170714:223352.347 slow query: 4078.915296 sec, "update item_discovery set lastcheck=1500078353 where itemid between 90446 and 90489;
                          "
                          14490:20170714:223352.353 slow query: 4092.845836 sec, update item_discovery set lastcheck=1500078339 where (itemid between 76007 and 76198 or itemid between 76295 and 76390);"
                          "
                          14524:20170714:223352.353 slow query: 4093.592582 sec, update hosts set snmp_disable_until=1500078398 where hostid=21411"""
                          14464:20170714:223352.354 slow query: 4089.824677 sec, "update item_discovery set lastcheck=1500078342 where itemid between 80970 and 81086;
                          "
                          14560:20170714:223352.354 slow query: 4094.597351 sec, update hosts set snmp_disable_until=1500078397 where hostid=14845"""
                          14509:20170714:223352.357 slow query: 4097.176189 sec, "update item_discovery set lastcheck=1500078335 where itemid between 87147 and 87194;
                          "
                          14566:20170714:223352.357 slow query: 4090.456511 sec, update hosts set snmp_disable_until=1500078401 where hostid=11064"""
                          14563:20170714:223352.361 slow query: 4094.640952 sec, "update hosts set snmp_disable_until=1500078397 where hostid=20665"
                          14974:20170714:223352.365 slow query: 4100.728427 sec, "insert into history_uint (itemid,clock,ns,value) values (84239,1500078330,877867456,2704),(74580,150007833 0,910978551,608),(88482,1500078330,921719696,0),(8 5149,1500078331,30624621,5256),(75652,1500078331,8 0942360,152),(66515,1500078331,107165057,18144),(7 5611,1500078331,134713295,1024000),(73661,15000783 31,402987321,1024000),(75775,1500078331,462989782, 9704);

                          -------------------------------------------------------------------------------------------------------------------------------------------------------------------


                          apos essas horas, olhando mais p frente do tempo, o zabbix faz as coletas normalmente, com erro mais as outras coletas diferencias continuam e durante o dia acontece o slow query aparece tb, os get snmps continuam, mesmo c alguns c erro mais da p perceber q outras coletas estao em funcionamento:


                          ----------------------------------------------------------------------------------------------------------------------------------------------------
                          14533:20170715:125951.404 resuming SNMP agent checks on host "QUATIS-RTT": connection restored

                          14517:20170715:125958.322 SNMP agent item "ifOutOctets.g01" on host "PRIORI-RTB" failed: another network error, wait for 15 seconds

                          14556:20170715:130021.240 temporarily disabling SNMP agent checks on host "PRIORI-RTB": host unavailable

                          14448:20170715:130059.237 slow query: 3.356560 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"

                          14465:20170715:130111.218 SNMP agent item "ifInOctets.g01" on host "CAPANEMA-RTB" failed: first network error, wait for 15 seconds

                          14523:20170715:130139.015 SNMP agent item "ifInOctets.g01" on host "CAPANEMA-RTB" failed: another network error, wait for 15 seconds

                          14539:20170715:130202.428 temporarily disabling SNMP agent checks on host "CAPANEMA-RTB": host unavailable

                          14448:20170715:130203.964 slow query: 3.113544 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"

                          14496:20170715:130301.287 SNMP agent item "ifDescr" on host "VELHO_RTT Serial000.1" failed: first network error, wait for 15 seconds

                          14551:20170715:130307.774 enabling SNMP agent checks on host "CAPANEMA-RTB": host became available

                          14448:20170715:130309.187 slow query: 3.638376 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"

                          14499:20170715:130318.211 SNMP agent item "ifSpeed.g01" on host "PATRIA-RTB" failed: first network error, wait for 15 seconds

                          14561:20170715:130319.094 resuming SNMP agent checks on host "VELHO_RTT Serial000.1": connection restored

                          14503:20170715:130323.650 SNMP agent item "ifInOctets.s000" on host "QUATIS-RTT" failed: first network error, wait for 15 seconds

                          14512:20170715:130335.077 resuming SNMP agent checks on host "PATRIA-RTB": connection restored

                          14563:20170715:130342.584 resuming SNMP agent checks on host "QUATIS-RTT": connection restored

                          14448:20170715:130414.279 slow query: 3.369078 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"

                          14470:20170715:130611.586 SNMP agent item "ifInOctets.g01" on host "CAPANEMA-RTB" failed: first network error, wait for 15 seconds

                          14448:20170715:130623.712 slow query: 3.049157 sec, "select distinct t.triggerid,t.description,t.expression,t.error,t.p riority,t.type,t.value,t.state,t.lastchange,t.stat us from hosts h,items i,functions f,triggers t where h.hostid=i.hostid and i.itemid=f.itemid and f.triggerid=t.triggerid and h.status in (0,1) and t.flags<>2"

                          -------------------------------------------------------------------------------------------------------------------

                          ISSO NÃO PODERIA SER UM BUG TALVEZ?

                          Comment

                          • cros
                            Member
                            • Jul 2017
                            • 87

                            #14
                            Slow query

                            achei isto por acaso no google e por coincidência é no forum da zabbix sia, porem a msg de query era outra, acho q nao se enquadra no meu erro.

                            Comment

                            • cros
                              Member
                              • Jul 2017
                              • 87

                              #15
                              Slow query

                              Eduardo,

                              Acho q descobri o q esta acontecendo c os buracos nos graficos do zabbix via snmp agent e foi uma das coisas q vc hava perguntado la no começo deste post, template, agora estou na duvida entre o template q vc mencionou ou quantidade de itens snmp coletando informaçoes.

                              bom vamos la, vamos por partes.

                              Segundo o Ingus Vilnis do suport da zabbix sia q eu encontrei um post deste mesmo problema, eu tinha pedido ajuda neste post antes de vir neste forum em portugues pedir ajuda, estes slow queries sao normais e ate mesmo vc eduardo disse q nao era p se preocupar c as slow queries:

                              Segue post:



                              Segue relato em ingles.

                              "The listed slow query is for getting the configuration data into Configuration Cache. As you have 120K items and 40K triggers then getting such information from all these tables can take some time. It is normal on larger installations and you should not worry about it. Still the query takes just a bit over 3 seconds therefore is not considered a problem at all."

                              Segue relato traduzido via google toscamente, apenas p q outros possam ler:

                              "A consulta lenta listada é para obter os dados de configuração no Cache de Configuração . Como você tem itens de 120K e disparadores de 40K, então, obter essas informações de todas essas tabelas pode levar algum tempo. É normal em instalações maiores e você não deve se preocupar com isso. Ainda assim, a consulta leva apenas um pouco mais de 3 segundos, portanto, não é considerado um problema."


                              O q eu fiz, parei p pensar o q eu fiz recentemente q poderia ter mudado o comportamento do zabbix com buracos nos graficos gerados por snmp agent, engracado q ja os graficos usando o agente simples de icmp ping nao geraram buracos neste mesmo periodo.

                              Bom vamos la, eu tinha personalizado um template nativo de snmp do zabbix p um uso c poucos itens monitorandos, pq ele coletava muitas informaçoes, porem acho q mesmo assim deve ter causado algun esforço do zabbix, mesmo eu tendo personalizado p coletas menos coisas e segundo os caras q cuidam dos servidores red hat, nenhum deles apresentou alta d cpu e memoria.

                              So q nesses equipamentos q eu adicionei, eu personalizei o template p pegar todas as portas usando prototipos de itens:

                              Regra de descoberta:

                              discovery[{#SNMPVALUE},IF-MIB::ifDescr,{#SNMPIFALIAS},IF-MIB::ifAlias,{#SNMPIFSPEED},IF-MIB::ifSpeed,{#SNMPIFOUT},IF-MIB::ifOutOctets,{#SNMPIFIN},IF-MIB::ifInOctets]

                              Prototipo iten:

                              IF-MIB::ifInOctets.{#SNMPINDEX}

                              Ontem eu resolvi desativar estes 120 equpamentos onde estou monitorando todas as portas e o zabbix nao fez buracos nos graficos, destes 120 hosts tem 60 itens cada, q deve dar uns 7mil itens, mais os demais q ja estou monitorando, totalizando 44 mil itens monitorados, 10 mil hosts e 45 mil triggers.

                              ************************************************** *************************
                              obs: Subem q no passado algumas triggers q eu criei p considerar apenas horarios 1 turno, me causaram indisponibilidade nas coletas, se deixar ela muito complexa, o zabbix nao coleta, porem nao investiguei se o cpu e memoria dos servidores envolvidos se eles estavam sobrecarregados, eu nao chequei.

                              Algo deste tipo:

                              (({TAUBATE:ifInOctets.3.avg(000100)}>{TAUBATE:ifSp eed.3.last()} /2 ) and ({TAUBATE:icmpping.time()}>080000 and {TAUBATE:icmpping.time()}<180000) and ({TAUBATE:icmpping.dayofweek()}>0 and {0TAUBATE:icmpping.dayofweek()}<6) or ({TAUBATE:ifOutOctets.3.avg(000100)}>{TAUBATE:ifSp eed.3.last()} /2) and ({TAUBATE:icmpping.time()}>080000 and {TAUBATE:icmpping.time()}<180000) and ({TAUBATE:icmpping.dayofweek()}>0 and {0195 AG TAUBATE:icmpping.dayofweek()}<6) )

                              Bom essa trigger foi so p dizer o q uma vez impactou no zabbix, voltemos no assunto.


                              ************************************************** *************************

                              Agora preciso pensar como monitorar estes equipamentos sem fazer o buraco novamente, vou tentar desassociar somente o template e deixar o q ja cadastrou, bom vou ver no q da.

                              Bom, ja descobrimos q o template q eu criei p monitorar 120 hosts foi o ofensor, porem ainda preciso descobrir qual a raiz do problema.

                              Sera q foi o template?

                              Sera q foi a quantidade d itens q o mysql / zabbix nao consegue trabalhar ?

                              Sera q foi a trigger q eu criei nestes caras ?

                              No decorrer dos dias, posto aki o q eu irei provavelmente fazer futuramente.


                              Obrigado Eduardo pela atenção.

                              Last edited by cros; 28-07-2017, 13:23.

                              Comment

                              Working...