PDA

View Full Version : Итоги внедрения 1.4.x


easy_john
02-06-2009, 12:33
Небольшие итоги об установке zabbix 1.4.x в большой сети.

Для нас мониторинговая система должна отвечать двум задачам:
1. сообщать о выходе какой-либо метрики за пределы нормы (при этом быть достаточно настраиваемой, что бы не завалить однообразными письмами)
2. давать понимание того, что именно в прошлом, от чего стало плохо.

по первому пункту:
- не хватает продвинутой системы оповещения, например возможности повторного отправления сообщений, каждые N минут, пока триггер TRUE. А так же ограничения отправки писем, например не более N сообщений о событиях группы M в течении часа (суток).

- Очень важное: не хватает статистических формул (в основном для тестирования каналов связи): медианы и выборки "M значений за N времени > X". существующими математическими формулами такую статистику не повторить!

по второму:
- нет гибкой выборки периода отображения графиков. зачастую график за час, это слишком много, особенно, если нужно видеть уровень значений между двумя пиками.

Еще из тонкостей:
- наличие бесполезных вещей. например аудит (administration - audit). зачем знать что триггер изменен, если нет данных на что он зменился, а главное, каким он был до изменения?

- возникли трудности с каскадными зависимостями: мы не хотим получать оповещение о "недоступности сервиса, если недоступен весь хост", так же как "о всех хостах, если недоступен коммутатор к которому они подключены". Настройка таких зависимостей, хоть и реализуема теоретически, практически при наличии уже десятка коммутаторов и нескольких десятков серверов изменить все триггеры вручную нет никаких сил. Или я просто не нашел способа их грамотно настроить?

PS. Бегло поискал сhangelog 1.6.x на сайте, но не нашел. На rootconf слышал только, что вроде добавили возможность не заваливать письмам.. значит все остальные вопросы остаются в силе.

Alexei
03-06-2009, 09:24
Зачем ставить 1.4 когда есть 1.6 решающий большинство перечисленных проблем? :)

easy_john
03-06-2009, 10:33
Зачем ставить 1.4 когда есть 1.6 решающий большинство перечисленных проблем? :)

Тестирование было, когда ветка 1.6 еще не была релизом.
Скажите пожалуйста, какие конкретно вещи из перечисленных уже изменились.
Вероятно мы попробуем еще одну попытку внедрения.

Alexei
03-06-2009, 14:10
Скажите пожалуйста, какие конкретно вещи из перечисленных уже изменились.
Все изменилось в лучшую сторону. Одинственное ограничение - минимальный отрезок времени для графа ограничен одним часом, но и его легко обойти.

easy_john
03-06-2009, 14:21
Все изменилось в лучшую сторону. Одинственное ограничение - минимальный отрезок времени для графа ограничен одним часом, но и его легко обойти.
А (самое важное) статистические формулы появились?
Ну график понятно можно сырыми значениями посмотреть.

Alexei
03-06-2009, 14:27
А (самое важное) статистические формулы появились?

Вычисляемые айтемы? Нет, но запланированы на 1.8.

easy_john
03-06-2009, 14:35
Вычисляемые айтемы? Нет, но запланированы на 1.8.
медиана и выборка "M значений за N времени больше(меньше) X"
без этих вещей мониторить канал бессмысленно.
значит будем ждать 1.8

Alexei
03-06-2009, 14:47
медиана и выборка "M значений за N времени больше(меньше) X"
без этих вещей мониторить канал бессмысленно.
значит будем ждать 1.8
Медиана - это 95% percentile? Если так, то это уже в графах 1.6. "M значений за N времени больше(меньше) X" поддерживается тригерами.

easy_john
03-06-2009, 14:54
Медиана - это 95% percentile? Если так, то это уже в графах 1.6. "M значений за N времени больше(меньше) X" поддерживается тригерами.
Медиана это 50-й процентиль
Хорошо. Изучу 1.6. Спасибо.