Ad Widget

Collapse

Странное поведение при мониторинге по ipmi

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • As_lan
    Junior Member
    • Apr 2011
    • 20

    #1

    Странное поведение при мониторинге по ipmi

    Имеем:
    1. Zabbix server v2.4.7 (revision 56694)
    2. 3 IBM x3550 m4
    3. Мониторинг Температуры и оборотов кулеров по IPMI

    Мониторинг температуры идет по датчикам с ID CPU 1 Temp, CPU 2 Temp,
    Ambient Temp, CPU 1 VR Temp и CPU 2 VR Temp. И вот тут начинаются странности (именно с мониторингом температуры, так как с мониторингом оборотов проблем нет). На первом сервере IBM zabbix отказывается снимать данные с датчиком CPU 1 Temp и CPU 2 Temp. Другие 2 сервере снимают показания с CPU 1 Temp, но с CPU 2 Temp уже нет. В логах ошибки
    Code:
    4828:20160205:093053.114 In get_ipmi_sensor_by_id() sensor:'CPU 2 Temp@[192.168.2.8]:623'
      4828:20160205:093053.115 In get_ipmi_control_by_name() CPU 2 Temp@[192.168.2.8]:623
      4828:20160205:093053.115 Item [IBM x3550 server 2:cpu_temp[2]] error: sensor or control CPU 2 Temp@[192.168.2.8]:623 does not exist
      4828:20160205:093053.116 In get_ipmi_sensor_by_id() sensor:'CPU 2 Temp@[192.168.2.7]:623'
      4828:20160205:093053.116 In get_ipmi_control_by_name() CPU 2 Temp@[192.168.2.7]:623
      4828:20160205:093053.116 Item [IBM x3550 server 1:cpu_temp[2]] error: sensor or control CPU 2 Temp@[192.168.2.7]:623 does not exist
      4828:20160205:093054.117 In get_ipmi_sensor_by_id() sensor:'CPU 2 Temp@[192.168.2.9]:623'
      4828:20160205:093054.117 In get_ipmi_control_by_name() CPU 2 Temp@[192.168.2.9]:623
      4828:20160205:093054.117 Item [IBM x3550 server 3:cpu_temp[2]] error: sensor or control CPU 2 Temp@[192.168.2.9]:623 does not exist
    Сами узлы полностью одинаковые. К узлам добавлен шаблон. То есть явно не в настройках элементов данных проблема.

    ipmitool -vI lan -H 192.168.2.7(8,9 не важно, на любом из трех серверов) -U USERID -P PASSW0RD sensor отдает
    Code:
    Sensor ID              : CPU 1 Temp (0xcb)
     Entity ID             : 3.1
     Sensor Type (Threshold)  : Temperature
     Sensor Reading        : 31 (+/- 0) degrees C
     Status                : ok
     Lower Non-Recoverable : na
     Lower Critical        : na
     Lower Non-Critical    : na
     Upper Non-Critical    : na
     Upper Critical        : na
     Upper Non-Recoverable : na
     Positive Hysteresis   : 4.000
     Negative Hysteresis   : Unspecified
     Assertion Events      :
     Assertions Enabled    :
    
    Sensor ID              : CPU 2 Temp (0xcc)
     Entity ID             : 3.1
     Sensor Type (Threshold)  : Temperature
     Sensor Reading        : 31 (+/- 0) degrees C
     Status                : ok
     Lower Non-Recoverable : na
     Lower Critical        : na
     Lower Non-Critical    : na
     Upper Non-Critical    : na
     Upper Critical        : na
     Upper Non-Recoverable : na
     Positive Hysteresis   : 4.000
     Negative Hysteresis   : Unspecified
     Assertion Events      :
     Assertions Enabled    :
    Так что ID так же правильно указал. Но вот что я совсем не могу понять, почему первый сервер вообще ни CPU 1 ни CPU 2 не снимает, а 2 других хотя бы CPU 1 снимают. Пытался удалить узел. Открепить шаблон с очисткой. Ничего не помогает. Потратил весь вчерашний день на попытку понять причину но так и не смог.
  • As_lan
    Junior Member
    • Apr 2011
    • 20

    #2
    Неужели никаких идей?

    Comment

    • pzabortsev
      Senior Member
      • Dec 2012
      • 338

      #3
      а сколько процессов в заббиксе для пуллинга ipmi запущено?

      Comment

      • As_lan
        Junior Member
        • Apr 2011
        • 20

        #4
        Пробовал разное количество. И 1, и 2 и 3. И так до 10.

        Comment

        • pzabortsev
          Senior Member
          • Dec 2012
          • 338

          #5
          Нужен только 1 процесс. При любом другом количестве будут глюки.
          Фича такая ))

          Comment

          • As_lan
            Junior Member
            • Apr 2011
            • 20

            #6
            Пробовал. от 1 до 10. С любым количество такая проблема.

            Comment

            Working...