Ad Widget

Collapse

Проблема с proc.num[]

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • dass
    Junior Member
    • May 2011
    • 3

    #1

    Проблема с proc.num[]

    Приветствую.

    Недавно сталкнулся с такой проблемой. Не знаю как ее можно решить:
    Есть сервер на gentoo c установленным zabbix 1.9.3.
    Создан ряд проверок вида proc.num[ssh], proc.num[mysqld], proc.num[syslog-ng], proc.num[apache2] и т.п.
    До определенного времени все это работало безотказно, пока не решил добавить еще несколько таких проверок:
    proc.num[hddtemp]
    proc.num[named]
    proc.num[openvpn]
    proc.num[rtorrent]
    После добавления вышеуказанных проверок Zabbix начал вести себя очень нестабильно, перестал получать данные от агента по каким-то параметрам. По другим параметрам данные получал стабильно.
    В логах обнаружидись вот такие ошибки:
    8769:20110725:160208.308 In substitute_simple_macros() data:'proc.num[openvpn]'
    8769:20110725:160208.308 In substitute_simple_macros() data:NULL
    8769:20110725:160208.308 In substitute_simple_macros() data:NULL
    8769:20110725:160208.308 Query [txnlev:1] [begin;]
    8769:20110725:160208.308 Query [txnlev:1] [update hosts set disable_until=1311595343 where hostid=10066]
    8769:20110725:160208.309 Query [txnlev:1] [commit;]
    8769:20110725:160208.311 Zabbix host [zabbix]: another network error, wait for 15 seconds

    Провел некоторые тесты, чтобы выявить зависимость от количества проверок вида proc.num или привязки к процессам. Но ничего выяснить пока не удалось. Zabbix периодически недополучает данные из-за этой ошибки, но причину появления установить не удалось.
    Может кто сталкивался с подобной проблемой?
  • dima_dm
    Senior Member
    • Dec 2009
    • 2697

    #2
    Как часто опрашиваете Item proc.num[XXXX]?
    Поставьте опрос раз в 900 сек (15 мин)

    Comment

    • dass
      Junior Member
      • May 2011
      • 3

      #3
      Большинство проверок выполняются раз в минуту (60 сек)
      Сейчас решил немного разгрузить агента и изменил частоту опроса на значения от 2 до 10 минут.
      Включил проверку proc.num[named] и еще пару других с частотой опроса от 10 до 15 минут и снова получил ошибки в логах:
      25048:20110725:185059.544 Zabbix host [zabbix]: first network error, wait for 15 seconds
      25057:20110725:185114.069 Zabbix host [zabbix]: another network error, wait for 15 seconds
      25051:20110725:185147.742 Zabbix host [zabbix]: first network error, wait for 15 seconds
      25057:20110725:185202.075 Zabbix host [zabbix]: another network error, wait for 15 seconds

      Для указанного элемента данных за неделю его существования не удалось получить ни одного значения

      proc.num[openvpn] за неделю смоз 2 раза отдаль количество процессов.

      Остальные проверки выполнялись через 1-2 часа, и сейчас, после запуска вышеуказанных проверок снова появились ошибки и перебои с получением значений от некоторых элементов данных.

      upd: я так понял, что увеличение количества процессов агента тут ничем не поможет. Пробовал увеличить параметр StartAgents до 10 и 15, результата не дало.
      Last edited by dass; 25-07-2011, 17:01.

      Comment

      Working...