Ad Widget

Collapse

Мониторинг температуры gpu

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • osada
    Junior Member
    • Jun 2015
    • 24

    #1

    Мониторинг температуры gpu

    Просьба подсказать, как правильно настроить шаблон для мониторинга работы видеокарт.

    В частности, имеется ферма из 6 видеокарт Nvidia GTX 1060, Windows 10 Home.
    Необходимо иметь возможность на сервере Zabbix мониторить их температуру и скорость вращения кулеров с возможностью оповещания по email при превышении темп-ры 82 градусов по Цельсию хотя бы одной карты.

    Ручной вывод в лог данных по карте через утилиту Nvidia SMI такие:

    +- NVIDIA GeForce GTX 1060 6GB (/nvidiagpu/0)
    | +- GPU Core : 1898 1506 1898 (/nvidiagpu/0/clock/0)
    | +- GPU Memory : 4100.63 4100.63 4100.63 (/nvidiagpu/0/clock/1)
    | +- GPU Shader : 3796 3012 3796 (/nvidiagpu/0/clock/2)
    | +- GPU Core : 66 64 66 (/nvidiagpu/0/temperature/0)
    | +- GPU Core : 100 4 100 (/nvidiagpu/0/load/0)
    | +- GPU Memory Controller : 0 0 0 (/nvidiagpu/0/load/1)
    | +- GPU Video Engine : 0 0 0 (/nvidiagpu/0/load/2)
    | +- GPU Memory : 5.68619 5.68619 5.68619 (/nvidiagpu/0/load/3)
    | +- GPU : 1017 1017 1030 (/nvidiagpu/0/fan/0)
    | +- GPU Fan : 43 43 43 (/nvidiagpu/0/control/0)
    | +- GPU Memory Free : 5794.64 5794.64 5794.64 (/nvidiagpu/0/smalldata/1)
    | +- GPU Memory Used : 349.359 349.359 349.359 (/nvidiagpu/0/smalldata/2)
    | +- GPU Memory Total : 6144 6144 6144 (/nvidiagpu/0/smalldata/3)

    Такие похожие выводы по каждой карте, меняется только номер карты.
    Т.е., вместо +- NVIDIA GeForce GTX 1060 6GB (/nvidiagpu/0) выходит +- NVIDIA GeForce GTX 1060 6GB (/nvidiagpu/1) и т.д.


    В первую очередь интересуют такие данные, как

    "+- GPU Core : 66 64 66 (/nvidiagpu/0/temperature/0)" и

    "+- GPU : 1017 1017 1030 (/nvidiagpu/0/fan/0)"

    Взял за основу статью из http://www.windraw.net/2017/03/zabbi...ie-dannye.html

    Но при такой настройке графы вывода данных по Nvidia абсолютно пустые.

    Просьба подсказать решение этого вопроса.
  • wins
    Senior Member
    • Sep 2014
    • 307

    #2
    Идея в статье подсказана правильно. Если openhardwwaremonitor не видит ваши видяхи - пробуйте обновить прогу и\или дрова видях. Ну или everest например, насколько я помню он кучу данных снимает и отчетики умеет делать текстовые.

    Comment

    • osada
      Junior Member
      • Jun 2015
      • 24

      #3
      Originally posted by wins
      Идея в статье подсказана правильно. Если openhardwwaremonitor не видит ваши видяхи - пробуйте обновить прогу и\или дрова видях. Ну или everest например, насколько я помню он кучу данных снимает и отчетики умеет делать текстовые.
      "Если openhardwwaremonitor не видит ваши видяхи" - OHM GUI видит все данные, если запускать вручную.

      Просто не совсем понял пока, как настроить Userparameter на агенте и на самом сервере Zabbix, чтобы данные выводились в графе.
      При попытке показать в графах данные, например, GPU Tempereature, статус графа указан как "No data".
      Соот-но, что-то наверняка делаю не так в параметре Userparameter.

      Comment

      • wins
        Senior Member
        • Sep 2014
        • 307

        #4
        Попробуйте в консольке на вин-машине выполнить тот юзерпараметр, ручками.
        Посмотрите выполняется ли, какой результат получается. Там и ясно будет что делать.

        Comment

        • osada
          Junior Member
          • Jun 2015
          • 24

          #5
          В том-то и дело, что ручками запускается нормально, а через UserParameter нет

          Я вручную запускал несколько раз, вывод данных идет нормально, а вот автоматически пока нет.

          Буду копать дальше.

          Comment

          • wins
            Senior Member
            • Sep 2014
            • 307

            #6
            дебаг заб. агента.
            + в заб сервере включить latest data с чекбоксами Show items without data,
            Show details
            что за тип данных возвращается, и какой тип задан в айтеме?

            Comment

            • osada
              Junior Member
              • Jun 2015
              • 24

              #7
              Спасибо за помощь, решил уже сам.

              Все снес и заново поставил. Кажется, я неправильно смортел вывод данных в лог с OHM и поэтому неправильно в UserParameter указал.

              Comment

              Working...