Ad Widget

Collapse

Výpadky sběru dat u MikroTik zařízení - Zabbix 5

Collapse
This topic has been answered.
X
X
 
  • Time
  • Show
Clear All
new posts
  • jan.brodecky
    Junior Member
    • Mar 2024
    • 22

    #1

    Výpadky sběru dat u MikroTik zařízení - Zabbix 5

    Dobrý den,

    provozuji Zabbix 5 a u některých MikroTik zařízení dochází k pravidelným výpadkům sběru dat. Používám stejný Template pro všechny MikroTik zařízení a data sbírám přes SNMP. Konfigurace monitoringu je tedy stejná.

    Například MikroTik 1 (RouterOS verze 6.48.6) monitorujeme bez problémů, ale MikroTik 2 (RouterOS verze 6.45.8) vykazuje krátké výpadky monitoringu. Během těchto výpadků se u všech hodnot v Latest data zobrazuje 0%, ale systém neaktivuje trigger a neodesílá upozornění.

    Dále posílám výstup (screenshot) z monitoringu MikroTik 3 (RouterOS 6.48.6), kde monitoring vypadává často. MikroTik 3 má stejnou verzi RouterOS jako MikroTik 1, kde je monitoring v pořádku. Konfigurace také stejná (template + SNMP)

    Přikládám screenshoty pro ilustraci problémů.

    Nepodařilo se mi najít souvislost mezi MikroTiky, kde monitoring funguje správně, a těmi, kde ne.

    V případě potřeby dodám další informace.

    Předem děkuji za pomoc a přeji všem pěkný den.
    Click image for larger version  Name:	MikroTik1_graph.png Views:	0 Size:	215.9 KB ID:	487406

    Click image for larger version  Name:	MikroTik2_graph.png Views:	0 Size:	239.7 KB ID:	487403 Click image for larger version  Name:	MikroTik3_graph.png Views:	0 Size:	223.9 KB ID:	487404 Click image for larger version  Name:	MikroTik3_latest_data.png Views:	0 Size:	124.5 KB ID:	487405
    Attached Files
  • Answer selected by jan.brodecky at 26-08-2024, 13:14.
    Alois Zadražil
    Junior Member
    • Nov 2020
    • 11

    Dobrý den,

    Nikdo na váš problém zatím neodpověděl, tak zkusím já.

    První věc, která z grafů plyne je, že zabbix nesbírá data - nevrací se tedy 0, nezobrazuje 0%, ale v grafech jsou mezery. To je i důvod, proč se neaktivoval žádný trigger a proč nepřichází upozornění.

    Proč data nepřichází je u SNMP protokolu složitější zjistit. SNMP je UDP protokol, takže je to nespojovaný a nepotvrzovaný protokol - zjednodušeně řešeno, zařízení posílá datagramy a nestará se o to, jestli došly, nebo ne. Z grafů evidentně některá data nepřicházejí a příčin může víc - například:
    1) Malý timeout pro SNMP
    2) Nedostatečný počet SNMP pollerů ( to by se projevilo v grafu sledování interních procesů zabbixu )
    3) Problém na síti - zahazování UDP paketů
    4) Problém sledovaného zařízení - jeho zatížení celkové, nebo zatížení SNMP
    A šlo by vymyslet i další.

    S diagnostikou bych začal v zabbix server logu ( /var/log/zabbix/zabbix_server.log , kde by měly být výpadky vidět jako item become not supported. Další, co bych vypnul je v konfiguraci hostů u SNMP interface nastavení Use bulk request - pokud je zapnuto, tak vypnout - viz https://www.zabbix.com/documentation...Bulk%2Crequest

    U itemů v konfiguraci - ve chvíli, kdy mají problém svítí nějaká chyba ( červené i ) které po kliknutí ukáže o jakou chybu jde, ale pravděpodobně to bude timeout. A také bych zvážil, jestli neudělat upgrade - verze 5 je už poměrně letitá a i když zrovna nepředpokládám, že by verze byla přímou příčinou výpadků, tak minimálně diagnostika je v novějších verzí zabbixu lepší.

    Zkuste vypnout ty bulk requesty ( pokud jsou zapnuté ) a pošlete mi:
    1) zatížení pollerů - graf z dashboardu zabbix server health.
    2) Nastavení Timeout z zabbix_server.conf
    3) Nastavení StartPollers=<hodnota> z zabbix_server.conf
    A zkusíme najít příčinu problému. Případně by to asi bylo lepší řešit formou konzultace.

    Comment


    • jan.brodecky
      jan.brodecky commented
      Editing a comment
      Dobrý den,

      mnohokrát děkuji. Pomohly pollery a změna šablony, která s některými MikroTik zařízeními nefungovala správně. Někde také pomohlo vypnutí "Use bulk requests".

      Přeji Vám krásný den.
  • Alois Zadražil
    Junior Member
    • Nov 2020
    • 11

    #2
    Dobrý den,

    Nikdo na váš problém zatím neodpověděl, tak zkusím já.

    První věc, která z grafů plyne je, že zabbix nesbírá data - nevrací se tedy 0, nezobrazuje 0%, ale v grafech jsou mezery. To je i důvod, proč se neaktivoval žádný trigger a proč nepřichází upozornění.

    Proč data nepřichází je u SNMP protokolu složitější zjistit. SNMP je UDP protokol, takže je to nespojovaný a nepotvrzovaný protokol - zjednodušeně řešeno, zařízení posílá datagramy a nestará se o to, jestli došly, nebo ne. Z grafů evidentně některá data nepřicházejí a příčin může víc - například:
    1) Malý timeout pro SNMP
    2) Nedostatečný počet SNMP pollerů ( to by se projevilo v grafu sledování interních procesů zabbixu )
    3) Problém na síti - zahazování UDP paketů
    4) Problém sledovaného zařízení - jeho zatížení celkové, nebo zatížení SNMP
    A šlo by vymyslet i další.

    S diagnostikou bych začal v zabbix server logu ( /var/log/zabbix/zabbix_server.log , kde by měly být výpadky vidět jako item become not supported. Další, co bych vypnul je v konfiguraci hostů u SNMP interface nastavení Use bulk request - pokud je zapnuto, tak vypnout - viz https://www.zabbix.com/documentation...Bulk%2Crequest

    U itemů v konfiguraci - ve chvíli, kdy mají problém svítí nějaká chyba ( červené i ) které po kliknutí ukáže o jakou chybu jde, ale pravděpodobně to bude timeout. A také bych zvážil, jestli neudělat upgrade - verze 5 je už poměrně letitá a i když zrovna nepředpokládám, že by verze byla přímou příčinou výpadků, tak minimálně diagnostika je v novějších verzí zabbixu lepší.

    Zkuste vypnout ty bulk requesty ( pokud jsou zapnuté ) a pošlete mi:
    1) zatížení pollerů - graf z dashboardu zabbix server health.
    2) Nastavení Timeout z zabbix_server.conf
    3) Nastavení StartPollers=<hodnota> z zabbix_server.conf
    A zkusíme najít příčinu problému. Případně by to asi bylo lepší řešit formou konzultace.

    Comment


    • jan.brodecky
      jan.brodecky commented
      Editing a comment
      Dobrý den,

      mnohokrát děkuji. Pomohly pollery a změna šablony, která s některými MikroTik zařízeními nefungovala správně. Někde také pomohlo vypnutí "Use bulk requests".

      Přeji Vám krásný den.
Working...