Ahoj,
chce se jen zeptat na názor. Sbíráme tu 50k itemů v Zabbixu na 450 hostech. Ekosystémy různých aplikací/systémů. Zákazníci/vývojáři vlastně neví co chtějí sbírat, neví co jsou hraniční hodnoty, chybí dokumntace a je tu vágní povědomí na čem apka vlastně běží. Switche jsou tu v produkční době zatížené na 80 - 90% CPU nebo RAM Ethernet 100Mbit vše je tu staré a vousaté. Vedení požaduje od monitoringu analýzu poruch: Proč to spadlo? Kde je ta kritická hodnota? Je sledovaná hodnota poruchovám stavem nebo nikoliv?
Celkem se mi zdá, že vlastně chtějí analýzu poruch a příčin a nejsem si jist zda je Zabbix pro toto vhodnou platformou. Má jen dvě forekastové funkce a pár statistických.
Osobně nevím jak toto uchopit. Zda se věnovat tvorbě analytických alertů ze sbíraných dat nebo to nechat na nějakym sofistikovanym softu. Kolega tu delá Elastik a poslali jej s tím někam: "takových grafů tu máme hafo, ale proč to padá a kde je konkrétní příčina nestability? Nečekejte, že vám vývojáři a správci řeknou kde hledat příčinu poruchy..."
Jadna z variant - změnit práci není na pořadu dne :-) Nevíte, jak se k tomuto postavit? Zzda neexistuje nějak analytický nástroj, který přehrabe data v Zabbixu a vysmrká mi anomálie? Nebo něco co funguje sólo nezávisle na Zabbixu?
Osobně mám pocit, že si vedení plete monitoring systémů a analýzu poruch. Co myslíte? Jaký je Váš názor?
Snažíme se sbírat vše. Na serverech s IIS sbíráme po 60s 1700-2300 itemů na SQL třeba i 1500 kousků. servery nestíhají tak mám třeba i tři, čtyři obdobně pojmenované servery od jednoho OS a jednoho agenta neb nestíhá odpovídat, ale rozdělením na 3-4 kousky je méně děr ve sběru dat a i tak má díry v dodávaných datech.
Jasně vše má svou hranici a analyzovat data do úrovně tak, že řeknu vývojáři: "na 236 řádku Ti chýbí uvozovky" je fakt hranice kam nechci dojít. :-) Ale ani správce aplikace, který ji píše mi nedal relevantní data co hlídat a v době poruchy jsou jím dodané kontroly v cajku. Ale chyba je, klasicky, na naší straně. Tak hledám, jak ukojit nespokojené vedení. (Které, ač jsme bankovní dům, má pocit, že IT je extrémně drahé.)
Mám na to 20 dní... :-D
Dík za nápady protože analýza dat nad DB, LAN/WAN, prvky OS, App není moje parketa.
Fík
chce se jen zeptat na názor. Sbíráme tu 50k itemů v Zabbixu na 450 hostech. Ekosystémy různých aplikací/systémů. Zákazníci/vývojáři vlastně neví co chtějí sbírat, neví co jsou hraniční hodnoty, chybí dokumntace a je tu vágní povědomí na čem apka vlastně běží. Switche jsou tu v produkční době zatížené na 80 - 90% CPU nebo RAM Ethernet 100Mbit vše je tu staré a vousaté. Vedení požaduje od monitoringu analýzu poruch: Proč to spadlo? Kde je ta kritická hodnota? Je sledovaná hodnota poruchovám stavem nebo nikoliv?
Celkem se mi zdá, že vlastně chtějí analýzu poruch a příčin a nejsem si jist zda je Zabbix pro toto vhodnou platformou. Má jen dvě forekastové funkce a pár statistických.
Osobně nevím jak toto uchopit. Zda se věnovat tvorbě analytických alertů ze sbíraných dat nebo to nechat na nějakym sofistikovanym softu. Kolega tu delá Elastik a poslali jej s tím někam: "takových grafů tu máme hafo, ale proč to padá a kde je konkrétní příčina nestability? Nečekejte, že vám vývojáři a správci řeknou kde hledat příčinu poruchy..."
Jadna z variant - změnit práci není na pořadu dne :-) Nevíte, jak se k tomuto postavit? Zzda neexistuje nějak analytický nástroj, který přehrabe data v Zabbixu a vysmrká mi anomálie? Nebo něco co funguje sólo nezávisle na Zabbixu?
Osobně mám pocit, že si vedení plete monitoring systémů a analýzu poruch. Co myslíte? Jaký je Váš názor?
Snažíme se sbírat vše. Na serverech s IIS sbíráme po 60s 1700-2300 itemů na SQL třeba i 1500 kousků. servery nestíhají tak mám třeba i tři, čtyři obdobně pojmenované servery od jednoho OS a jednoho agenta neb nestíhá odpovídat, ale rozdělením na 3-4 kousky je méně děr ve sběru dat a i tak má díry v dodávaných datech.
Jasně vše má svou hranici a analyzovat data do úrovně tak, že řeknu vývojáři: "na 236 řádku Ti chýbí uvozovky" je fakt hranice kam nechci dojít. :-) Ale ani správce aplikace, který ji píše mi nedal relevantní data co hlídat a v době poruchy jsou jím dodané kontroly v cajku. Ale chyba je, klasicky, na naší straně. Tak hledám, jak ukojit nespokojené vedení. (Které, ač jsme bankovní dům, má pocit, že IT je extrémně drahé.)
Mám na to 20 dní... :-D
Dík za nápady protože analýza dat nad DB, LAN/WAN, prvky OS, App není moje parketa.
Fík
kludne aj za 20 dni
Comment