Ad Widget

Collapse

Network error wait 15

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • gmarin_cnous
    Junior Member
    • Apr 2017
    • 3

    #1

    Network error wait 15

    Bonjour,
    Nous travaillons avec ZABBIX 3.2
    j'ai une incompréhension au sujet des tests qui tombent en erreur:
    Nous avons régulièrement un test en erreur qui me dit attendre 15 secondes mais en fait cela dure beaucoup plus.
    exemples :
    2302:20170411:192035.636 Zabbix agent item "system.localtime" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170411:213244.958 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored
    2303:20170411:213446.745 Zabbix agent item "system.cpu.switches" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170411:213525.835 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored
    2299:20170411:234800.904 Zabbix agent item "system.cpu.util[,iowait]" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170412:015851.490 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored
    2300:20170412:041611.777 Zabbix agent item "system.users.num" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170412:062830.432 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored
    2302:20170412:063317.703 Zabbix agent item "system.localtime" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170412:063630.652 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored
    2300:20170412:084833.882 Zabbix agent item "proc.num[denyhosts]" on host "500328ac-be53-2c17-0739-571482329e3c" failed: first network error, wait for 15 seconds
    2304:20170412:105519.609 resuming Zabbix agent checks on host "500328ac-be53-2c17-0739-571482329e3c": connection restored

    La question :
    quel évènement est le déclencheur pour : connection restored ?
    Cordialement
    Gilbert Marin
  • toine7m
    Member
    • Feb 2017
    • 93

    #2
    Salut, tout d'abord, pourrais tu regarder à combien est set le timeout de la requête ?

    grep Timeout /usr/local/etc/zabbix_server.conf
    Timeout=XX

    Aussi, vérifie la "queue" dans le menu administration, voir si elle n'est pas surchargée

    Est-ce que la machine correspondante aux tests est fonctionnelle ? tu n'as ça qu'avec une seule machine ?

    Comment

    • gmarin_cnous
      Junior Member
      • Apr 2017
      • 3

      #3
      Merci pour la réponse.
      Le timeout est de 30.
      La file d'attente contient 1 dans la case 5 minutes et 761 dans la case plus de 10 minutes
      La machine vient d'être installée et n'est pas en prod mais fonctionnelle.
      Et j'ai plus de 300 hôtes.
      Cordialement
      Gilbert

      Comment

      • toine7m
        Member
        • Feb 2017
        • 93

        #4
        Augmente le timeout pour voir si cela change quelque chose, je te conseille aussi d'utiliser netcat pour vérifier si le troubleshoot est bien résulté par "succeeded", voir ci-après :

        From the zabbix front end, run a netcat test to the monitored server:
        [root@tstmon01 ~]# nc -vz 10.53.154.79 10050
        Connection to 10.53.154.79 10050 port [tcp/zabbix-agent] succeeded!

        From the monitored server, run a netcat test to the zabbix frontend:[root@tstjboss05 ~]# nc -vz 10.53.154.73 10051
        Connection to 10.53.154.73 10051 port [tcp/zabbix-trapper] succeeded!

        If you don't "suceeded" troubleshoot network as needed. You can also turn up debugging settings in the /etc/zabbix-agentd.conf file by setting DebugLevel to 4 and restarting the agent. Warning! The logs fill rapidly!

        Comment

        • gmarin_cnous
          Junior Member
          • Apr 2017
          • 3

          #5
          Le timeout est au max si j'en crois l'aide :

          ### Option: Timeout
          # Spend no more than Timeout seconds on processing
          #
          # Mandatory: no
          # Range: 1-30
          # Default:
          # Timeout=20
          Timeout=20

          Même pendant le blackout, les tests avec zabbix-get depuis le serveur fonctionnent.
          Mais que la demande venant du serveur soit en erreur à un instant T ne me gène pas plus que cela.
          J'aimerai juste comprendre pourquoi quand le serveur me donne l'information "wait for 15 secondes" , les tests ne recommencent que bien plus longtemps après, jusqu'à 3 heures de coupure de mesure.
          Cordialement
          Gilbert

          Comment

          • stephane.papin
            Junior Member
            • Jun 2015
            • 22

            #6
            Bonjour.

            Il se peut que ce soit un problème de lock dans la BDD, le mieux à faire :

            Éteindre le frontal, zabbix et le BDD faire de même avec les proxy si présent.
            Rallumer BDD + zabbix patienter 1H
            rallumer le frontal attendre 15 minutes
            Rallumer les proxy 1 par 1 en séquentiel

            Comment

            Working...