Ad Widget

Collapse

Вопрос про сбор данных при долгом таймау&#

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • ukara
    Junior Member
    • Mar 2011
    • 10

    #1

    Вопрос про сбор данных при долгом таймау&#

    Добрый день.

    На сервере настроено несколько проверок удаленных SMTP серверов
    Все вот такие: net.tcp.service.perf[smtp,hostname,25]

    В какой-то момент один из проверяемых SMTP серверов стал долго отвечать (около 40 секунд)
    В результате zabbix стал терять данные про другим проверкам.

    В связи с этим вопрос: zabbix одновременно проверяет только одну метрику и безусловно ждёт её завершения, преждем чем начать проверять другие?

    В результате, например, был такой график CPU utilization:
    Last edited by ukara; 30-01-2014, 14:52. Reason: Добавлено изображение
  • Jimson
    Senior Member
    • Jan 2008
    • 1327

    #2
    А сколько пулеров запущено на сервере? Что показывает статистика zabbix_server?

    P.S. и таймаут максимальный на сколько я помню 30 секунд (при условии что вы его прописали в конфиге, значение по умолчанию меньше), так что "пропадания" на проблемном сервере будут в любом случае, пулер не дождется данных.

    Comment

    • ukara
      Junior Member
      • Mar 2011
      • 10

      #3
      Пулеров 5.
      В статистике все зеленое.
      ### Option: Timeout
      Timeout=15
      Timeout выставлен в 15.
      Я так понимаю мне не хватает свободных пулеров, когда один из них висит в ожидании ответа по таймауту от проверки?

      Comment

      • Jimson
        Senior Member
        • Jan 2008
        • 1327

        #4
        Ну раз у вас по другим, нормально работающим, хостам данные пропадать начали, то первым делом надо смотреть за загрузкой пулеров: zabbix[process,poller,avg,busy]. Что такое "все зеленое" я не понял. Опять же не понятно что за задержки такие в 40 секунд, может у вас там не только SNMP мониторится, описывайте проблему подробнее, возможно пока сформулируете вопрос уже и проблему найдете самостоятельно.
        Last edited by Jimson; 31-01-2014, 08:48.

        Comment

        • ukara
          Junior Member
          • Mar 2011
          • 10

          #5
          С утра поменял количество пуллеров до 200.

          SNMP не испольуется. Провеки: net.tcp.service.perf[smtp,hostname,25] + стандартные из Template Linux OS.

          В логах сервера следуюее:
          24312:20140131:112138.009 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host2" failed: first network error, wait for 15 seconds

          24431:20140131:112152.434 resuming Zabbix agent checks on host "host1": connection restored
          24431:20140131:112153.454 resuming Zabbix agent checks on host "host2": connection restored
          24242:20140131:112337.584 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host1" failed: first network error, wait for 15 seconds
          24223:20140131:112338.739 Zabbix agent item "net.tcp.service.perf[smtp,smtphost.example.com,25]" on host "host2" failed: first network error, wait for 15 seconds
          24431:20140131:112352.501 resuming Zabbix agent checks on host "host1": connection restored
          24431:20140131:112353.854 resuming Zabbix agent checks on host "host2": connection restored

          +Сейчас с второго хоста все собирается нормально, а график CPU Utilization первого показан в аттаче.
          Attached Files

          Comment

          • yukra
            Senior Member
            • Apr 2013
            • 1359

            #6
            Originally posted by ukara
            график CPU Utilization первого показан в аттаче.
            Молодец. А теперь посмотри на свой график нагрузки CPU и попробуй догадаться что именно значит зеленый цвет, а что синий
            + если приводишь 2 графика, логичнее приводить их за одинаковое время. Могу предположить что в моменты "провалов" пуллеры заняты на 100%, но этого не видно на графике потому что там "средние" значения и эти 100% просто размазались.

            Так же советовал бы побольше айтемов "внутренних проверок" создать, в частности разных "zabbix[process,<тип>,<режим>,<состояние>]"

            Comment

            • AllertGen
              Member
              • Dec 2013
              • 30

              #7
              Вообще человек правильно мыслит. Поллер обходит каждый параметр по очереди и если что-то не доступно, он "зависает" на этом параметре на "timeout" кол-ва секунд.
              Решений несколько (рекомендую совместить):
              1. Уменьшить таймаут со стандартных 15 до 2 - 4 секунд (компенсировать возможные потери данных из-за не получения по таймауту уменьшением промежутка между повторными опросами). Так же увеличит кол-во поллеров (уже сделано).
              2. Уменьшить кол-во времени до момента, когда параметр переходит в состояние Unreacheble. Тогда этот параметр больше не будет отдаваться в основной поллер, а передастся в другой поллер - Unreacheble poller.

              Comment

              Working...