Ad Widget

Collapse

Проблемы с заббикс агентом

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • noworry
    Junior Member
    • Jan 2011
    • 18

    #1

    Проблемы с заббикс агентом

    Есть такая проблема, что когда у сервера большой la, или мой проверки на этом сервере выстраиваются в большое кол-во процессов, то заббикс агент перестает отдавать данные. Соответственно это выливается в отсутствие алертов от триггеров и пробелы в графиках
    Можно ли это пофиксить, или стоит все же переходить на СНМП?
    Увелеличение кол-ва процессов агента не спасает.
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    Попробуйте увеличить таймауты для zabbix_agent и zabbix_server
    /etc/zabbix/zabbix_agentd.conf
    Timeout=30
    /etc/zabbix/zabbix_server.conf
    Code:
    ### Option: Timeout
    #       Specifies how long we wait for agent, SNMP device or external check (in seconds).
    #
    # Mandatory: no
    # Range: 1-30
    # Default:
    Timeout=30
    И рестартовать zabbix_agent и zabbix_server
    По умолчанию там 3 сек Timeout

    Так может стоит подумать над оптимизацией проверок? Уменьшением их количества? Я успешно снимаю данные с серверов с LA 60.

    Comment

    • noworry
      Junior Member
      • Jan 2011
      • 18

      #3
      Да, проверок не так уж и много получается, возможно не красиво написаны...
      Увеличил таймаут, понаблюдаю. Спасибо

      Comment

      • noworry
        Junior Member
        • Jan 2011
        • 18

        #4
        Переписал веб проверки, которые "плодили" много процессов с заббикс агентом, увеличил таймаут до 30.
        И опять сегодня при la 20-30 заббикс я вижу рваные графики, и триггеры абсолютно не работают(

        В какую сторону смотреть? Очень неприятная ситуация, т.к. сервера могут провисеть в таком состоянии пол суток и никаких алертов.
        Вот так это выглядит:
        Attached Files
        Last edited by noworry; 26-01-2011, 09:26.

        Comment

        • dima_dm
          Senior Member
          • Dec 2009
          • 2697

          #5
          А zabbix_get Вы данные можете получить с сервера в момент проблемы?
          С Zabbix Server
          zabbix_get -s IP -k agent.version
          1.8.2

          Comment

          • noworry
            Junior Member
            • Jan 2011
            • 18

            #6
            Попытался искусственно нагрузить сервер...
            Получилось, но графики были практически стабильные, только несколько разрывов, при этом с сервера я нормально забирал:
            1.4.2

            Comment

            • dima_dm
              Senior Member
              • Dec 2009
              • 2697

              #7
              Originally posted by noworry
              Попытался искусственно нагрузить сервер...
              Получилось, но графики были практически стабильные, только несколько разрывов, при этом с сервера я нормально забирал:
              1.4.2
              А почему zabbix_agent такой древний, обновить не пробовали?

              Comment

              • noworry
                Junior Member
                • Jan 2011
                • 18

                #8
                Да, этот момент как то упустил, обновлю обязательно.

                Успел посмотреть, что происходит при такой нагрузке:
                -Руками я могу забрать значения, хоть иногда с тормозами
                -А на сервере вижу такое
                Get value from agent failed: ZBX_TCP_READ() failed [Interrupted system call]

                Comment

                • dima_dm
                  Senior Member
                  • Dec 2009
                  • 2697

                  #9
                  Originally posted by noworry
                  -А на сервере вижу такое
                  Get value from agent failed: ZBX_TCP_READ() failed [Interrupted system call]
                  Если задержка получения ответа меньше 30 секунд, то проверяйте как Вы Timeout на Zabbix сервере настраивали.
                  /etc/zabbix/zabbix_server.conf
                  Timeout=30

                  Comment

                  Working...