Ad Widget

Collapse

Vhodný analytický nástroj?

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • Rudlafik
    Senior Member
    • Nov 2018
    • 144

    #1

    Vhodný analytický nástroj?

    Ahoj,

    chce se jen zeptat na názor. Sbíráme tu 50k itemů v Zabbixu na 450 hostech. Ekosystémy různých aplikací/systémů. Zákazníci/vývojáři vlastně neví co chtějí sbírat, neví co jsou hraniční hodnoty, chybí dokumntace a je tu vágní povědomí na čem apka vlastně běží. Switche jsou tu v produkční době zatížené na 80 - 90% CPU nebo RAM Ethernet 100Mbit vše je tu staré a vousaté. Vedení požaduje od monitoringu analýzu poruch: Proč to spadlo? Kde je ta kritická hodnota? Je sledovaná hodnota poruchovám stavem nebo nikoliv?
    Celkem se mi zdá, že vlastně chtějí analýzu poruch a příčin a nejsem si jist zda je Zabbix pro toto vhodnou platformou. Má jen dvě forekastové funkce a pár statistických.

    Osobně nevím jak toto uchopit. Zda se věnovat tvorbě analytických alertů ze sbíraných dat nebo to nechat na nějakym sofistikovanym softu. Kolega tu delá Elastik a poslali jej s tím někam: "takových grafů tu máme hafo, ale proč to padá a kde je konkrétní příčina nestability? Nečekejte, že vám vývojáři a správci řeknou kde hledat příčinu poruchy..."

    Jadna z variant - změnit práci není na pořadu dne :-) Nevíte, jak se k tomuto postavit? Zzda neexistuje nějak analytický nástroj, který přehrabe data v Zabbixu a vysmrká mi anomálie? Nebo něco co funguje sólo nezávisle na Zabbixu?

    Osobně mám pocit, že si vedení plete monitoring systémů a analýzu poruch. Co myslíte? Jaký je Váš názor?

    Snažíme se sbírat vše. Na serverech s IIS sbíráme po 60s 1700-2300 itemů na SQL třeba i 1500 kousků. servery nestíhají tak mám třeba i tři, čtyři obdobně pojmenované servery od jednoho OS a jednoho agenta neb nestíhá odpovídat, ale rozdělením na 3-4 kousky je méně děr ve sběru dat a i tak má díry v dodávaných datech.

    Jasně vše má svou hranici a analyzovat data do úrovně tak, že řeknu vývojáři: "na 236 řádku Ti chýbí uvozovky" je fakt hranice kam nechci dojít. :-) Ale ani správce aplikace, který ji píše mi nedal relevantní data co hlídat a v době poruchy jsou jím dodané kontroly v cajku. Ale chyba je, klasicky, na naší straně. Tak hledám, jak ukojit nespokojené vedení. (Které, ač jsme bankovní dům, má pocit, že IT je extrémně drahé.)

    Mám na to 20 dní... :-D

    Dík za nápady protože analýza dat nad DB, LAN/WAN, prvky OS, App není moje parketa.

    Fík
  • gofree
    Senior Member
    Zabbix Certified SpecialistZabbix Certified Professional
    • Dec 2017
    • 400

    #2
    nech vedia co je drahe https://www.dynatrace.com/ kludne aj za 20 dni

    Comment

    • Rudlafik
      Senior Member
      • Nov 2018
      • 144

      #3
      Děkuji za doporučení hodim to do rozpočtu na rok 24.
      Ale když se podíváme na dnešní možnosti Zabbixu. Jak vy analyzujete poruchy a jejich příčiny? Jak bojujete s neznalostí potřeb zákazníků? U těch analytických/statistických funkcí mě napadlo použít agregované funkce v celkové sumě jednoho itemu z více strojů nebo webů, atp. a zde poté hledat anomálii rozptylu hodnot nebo přesunu střední hodnoty do leva nebo do prava. A otázkou je v jakých cyklech 24hod, 4 hod 2 hod 1 hodina nazpět?
      Hledám důvod proč to tam kluci ze zabbixu dali. To musí mít nějaký důvod a vizi, jak s tím optimálně pracovat.
      Nebo je to otázka pustit nad DB Zabbixu strojové učení/AIOps? A hledej šmudlo?

      Comment

      Working...