Всем привет. Хотелось бы узнать у кого как организована структура мониторинга. Структура в плане - по какому признаку группы, темплейты, зависимости триггеров.
У меня на данный момент так: есть грубо говоря компания с 5 удаленными подразделениями. Между ними туннели. Мониторится все пока что одним заббикс сервером порядка 7200 элементов и 100 хостов. узлы разделены в группы:
1 - по принадлежности к структурному подразделению (чтобы было удобно отправлять сообщения админу данного подразделения)
2 - по типу устройства - роутеры, серверы, свитчи, принтеры и тп
для сетевых устройств есть темплейт snmp с обнаружением и т.п. для винды то же самое, и для принтеров.
Основной затык у меня сейчас с зависимостями..пытаюсь сделать так, чтобы когда падает роутер головного подразделения приходило сообщение только о нем и все....делаю зависимость...имитирую его падение...все ок пришло сообщение о его падении....но! стоит мне восстановить связь с ним...приходит сообщение о том что он стал ОК...и 50 сообщений о том что хосты за ним лежат....и сразу следом 50 сообщений о том что эти хосты стали ОК (Очередей более 15 секунд как правило не бывает)
Сейчас столкнулся с той трудностью что надо делать зависимости триггеров, делать прокси в подразделениях. Делитесь опытом как лучше все организовать чтобы и зависимости правильно работали и прокси просто админить и т.п. в общем как то так))
У меня на данный момент так: есть грубо говоря компания с 5 удаленными подразделениями. Между ними туннели. Мониторится все пока что одним заббикс сервером порядка 7200 элементов и 100 хостов. узлы разделены в группы:
1 - по принадлежности к структурному подразделению (чтобы было удобно отправлять сообщения админу данного подразделения)
2 - по типу устройства - роутеры, серверы, свитчи, принтеры и тп
для сетевых устройств есть темплейт snmp с обнаружением и т.п. для винды то же самое, и для принтеров.
Основной затык у меня сейчас с зависимостями..пытаюсь сделать так, чтобы когда падает роутер головного подразделения приходило сообщение только о нем и все....делаю зависимость...имитирую его падение...все ок пришло сообщение о его падении....но! стоит мне восстановить связь с ним...приходит сообщение о том что он стал ОК...и 50 сообщений о том что хосты за ним лежат....и сразу следом 50 сообщений о том что эти хосты стали ОК (Очередей более 15 секунд как правило не бывает)
Сейчас столкнулся с той трудностью что надо делать зависимости триггеров, делать прокси в подразделениях. Делитесь опытом как лучше все организовать чтобы и зависимости правильно работали и прокси просто админить и т.п. в общем как то так))
Comment