Колеги!
Есть следующая задача.
1. есть мониторинг логов. если в логе появляется определенное сообщение ( connect success ) - алерт. в тегах - берется из лога IP с которого произошел коннект.
2. алерты из п.1 автоматически закрываються если длительность "проблемы" больше 24ч.
3. когда в логе появляется disconnect - создается новый алерт с IP по которому произошло завершение соединения. Через кореляцию закрывается и новый алерт и старый по тегам с одинаковым IP.
таким образом у нас висят только алерты по которым сейчас есть установленое соединение за последних 24 часа. все они на отдельном дашборде и удобно и хорошо видно.
Но бывает такая ситуция когда клиент соединяется и через 10 секунд связь обрывается.и так много раз подряд. такое поведений характерно для определенной ошибки - мы знаем как ее лечить. если заметили.
Беда в том что при такой ошибке на клиентской стороне ничего не происходит - он видит простую сетевую недоступность. так сделан клиентский софт и поменять мы его пока не можем.
вопрос как на забиксе сделать - если произошло N алертов с определенными тегами за например последний час, каждый из которых был закрыт, но длительность проблемы была не более 1 минуты, то на такое условие сделать отдельный алерт высокого приоритета.
такое вообще возможно реализовать на забиксе?
Есть следующая задача.
1. есть мониторинг логов. если в логе появляется определенное сообщение ( connect success ) - алерт. в тегах - берется из лога IP с которого произошел коннект.
2. алерты из п.1 автоматически закрываються если длительность "проблемы" больше 24ч.
3. когда в логе появляется disconnect - создается новый алерт с IP по которому произошло завершение соединения. Через кореляцию закрывается и новый алерт и старый по тегам с одинаковым IP.
таким образом у нас висят только алерты по которым сейчас есть установленое соединение за последних 24 часа. все они на отдельном дашборде и удобно и хорошо видно.
Но бывает такая ситуция когда клиент соединяется и через 10 секунд связь обрывается.и так много раз подряд. такое поведений характерно для определенной ошибки - мы знаем как ее лечить. если заметили.
Беда в том что при такой ошибке на клиентской стороне ничего не происходит - он видит простую сетевую недоступность. так сделан клиентский софт и поменять мы его пока не можем.
вопрос как на забиксе сделать - если произошло N алертов с определенными тегами за например последний час, каждый из которых был закрыт, но длительность проблемы была не более 1 минуты, то на такое условие сделать отдельный алерт высокого приоритета.
такое вообще возможно реализовать на забиксе?
Comment