Ad Widget

Collapse

агрегированная проверка grpsum периодически становится not supported

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • alexminsk2
    Junior Member
    • Sep 2020
    • 3

    #1

    агрегированная проверка grpsum периодически становится not supported

    Всем доброго дня.

    zabbix-server 4.4.10 + TimescaleDB (все устанавливалось и апгрейдится из deb repo) ubuntu 18

    Были настроены и несколько месяцев корректно работали агрегированные проверки с grpsum. С определенного момента они начали периодически уходить в состояние not supported и потом возвращаться назад. Вот пример:

    Есть группа "MY Crawlers" из N хостов и на каждом хосте создан jmx item:

    jmx["bean:name=crawlerStats","CrawledPagesPerSec"]

    Согдана агрегированная проверка по этому item по данной группе хостов:

    grpsum["MY Crawlers","jmx["bean:name=crawlerStats","CrawledPagesPerSec"]",last]

    Периодически агрегированная проверка становится "not supported" хотя сами items на всех хостах снимаются и потом показываются в интерфейсе zabbix без каких либо проблем.

    Лог сервера:

    Code:
    21521:20200915:083524.653 [Z3005] query failed: [0] result is NULL [select distinct i.itemid from items i,hosts h,hosts_groups hg,item_rtdata ir where i.hostid=h.hostid and h.hostid=hg.hostid and i.key_='jmx["bean:name=crawlerStats","CrawledPagesPerSec"]' and i.status=0 and ir.itemid=i.itemid and ir.state=0 and h.status=0 and hg.groupid=19]
    21521:20200915:083524.653 [Z3005] query failed: [0] PGRES_FATAL_ERROR [select distinct i.itemid from items i,hosts h,hosts_groups hg,item_rtdata ir where i.hostid=h.hostid and h.hostid=hg.hostid and i.key_='jmx["bean:name=crawlerStats","CrawledPagesPerSec"]' and i.status=0 and ir.itemid=i.itemid and ir.state=0 and h.status=0 and hg.groupid=19]
    21042:20200915:083524.653 item "server-crawler1.local:grpsum["MY Crawler","jmx[\"bean:name=crawlerStats\",\"CrawledPagesPerSec \"]",last]" became not supported: No items for key "jmx["bean:name=crawlerStats","CrawledPagesPerSec"]" in group(s) "MY Crawler".
    21049:20200915:083624.733 item "server-crawler1.local:grpsum["MY Crawler","jmx[\"bean:name=crawlerStats\",\"CrawledPagesPerSec \"]",last]" became supported
    22003:20200915:083924.735 [Z3005] query failed: [0] result is NULL [select distinct i.itemid from items i,hosts h,hosts_groups hg,item_rtdata ir where i.hostid=h.hostid and h.hostid=hg.hostid and i.key_='jmx["bean:name=crawlerStats","CrawledPagesPerSec"]' and i.status=0 and ir.itemid=i.itemid and ir.state=0 and h.status=0 and hg.groupid=19]
    22003:20200915:083924.735 [Z3005] query failed: [0] PGRES_FATAL_ERROR [select distinct i.itemid from items i,hosts h,hosts_groups hg,item_rtdata ir where i.hostid=h.hostid and h.hostid=hg.hostid and i.key_='jmx["bean:name=crawlerStats","CrawledPagesPerSec"]' and i.status=0 and ir.itemid=i.itemid and ir.state=0 and h.status=0 and hg.groupid=19]
    21049:20200915:083924.743 item "server-crawler1.local:grpsum["MY Crawler","jmx[\"bean:name=crawlerStats\",\"CrawledPagesPerSec \"]",last]" became not supported: No items for key "jmx["bean:name=crawlerStats","CrawledPagesPerSec"]" in group(s) "MY Crawler".
    21053:20200915:084624.313 item "server-crawler1.local:grpsum["MY Crawler","jmx[\"bean:name=crawlerStats\",\"CrawledPagesPerSec \"]",last]" became supported
    С самим postgresql проблем не замечено. В логе никаких errors.

    Есть ли идеи куда дальше подебажить можно эту проблему?

    Проявляется не только с jmx, на всех проверках с grpsum, например при таких: grpsum["MY Crawlers","net.if.in["eth0"]",last]

    Спасибо.
  • Semiadmin
    Senior Member
    • Oct 2014
    • 1625

    #2
    Хосты не через прокси мониторятся? Такое может быть, если прокси задерживает данные, и на момент подсчета агрегируемого айтема данных нет. А потом прокси слил данные - и на графиках все хорошо.

    Comment

    • alexminsk2
      Junior Member
      • Sep 2020
      • 3

      #3
      Прокси нет. Данные собираются по jmx, активными и обычными агентами. Проблем со сбором данных не замечено. В момент перехода агрегированной проверки в not supported - я наблюдал за Latest data, по которым он строится - все данные поступают в обычном режиме. Да и даже если бы какой-то хост из группы не успел собрать - он бы просто не участвовал в результате подсчета grpsum. Судя по логу сервера - No items for key ловит сразу на всю группу, создается ощущение, что что-то стало с базой. Вот как ей health check сделать? Просто рестарт postgresql проходит в штатном режиме.

      Comment

      • alexminsk2
        Junior Member
        • Sep 2020
        • 3

        #4
        Теперь начались проблемы как тут: https://support.zabbix.com/browse/ZBX-16347
        oom killer убивает postgresql. Память утилизируется очень быстро:

        Click image for larger version

Name:	Screen Shot 2020-10-01 at 5.00.59 PM.png
Views:	174
Size:	160.7 KB
ID:	410071

        после такого срабатывают триггеры по nodata, у которых промежуток контроля очень короткий.
        возможно проблема с grpsum тоже из связки zabbix + timescaledb

        Comment

        Working...