Коллеги по несчастью, имевшие неосторожность устанавливать агентов 6.0 и выше, поделитесь идеями как решать проблему устойчивости работы агентов. У меня стойкое впечатление, что команда zabbix не понимает глубины и размеров проблемы ZBX-21135, ZBX-21227.
Агент 2 - это вообще песня, документации о настройках -ноль, при запуске в логах какая-то ахинея, которую никто не может объяснить, устойчивость работы - ниже плинтуса. Просто пришлось переустановить полностью.
Но и первый агент не подарок.
1. агент не запускается и падает когда есть проблемы со счётчиками производительности. Достаточно включить дебаг 5 и увидите, чем агент занимается, типа гуся дёргает. Кому нужны эти счётчики на workstation?
2. агент просто падает с завидной частотой примерно 15-20 падений на 1000 узлов в день. Это просто катастрофа, когда имеешь на мониторинге несколько тысяч узлов. Что с этим делать? Наверно можно по триггеру запускать некую процедуру типа sc \\crashed_server start "zabbix agent". Но вот беда, zabbix server - это linux. Он таких команд не знает. Знает net rpc ... Но чего-то вменяемого из этой команды получить не могу. Мало того, чтобы толком воспользоваться этим, нужно открыть порты 135, 139, 445, что для служб безопасности как красная тряпка для быка. Магическая фраза Agent stopped всегда совпадает с некоей уникальной процедурой, связанной, опять же, с опросом счётчиков производительности. Возможно опрос счётчиков является вторичным по отношению к поведению Windows.
3. агент не стартует если произошло аварийное выключение узла. Как только в логе появляется, что система после старта восстановлена после ошибки, получаем запись - служба не ответила в течении 30000 (или 45000) мс.
В общем, когда для системы мониторинга приходится разворачивать систему контроля её работы, а потом контроль контроля и так далее - это уже не мониторинг, а какой-то балаган. Стремление разработчиков наворачивать новую функциональность похвально, но если не работает основа, толку от заоблачной функциональности?
Агент 2 - это вообще песня, документации о настройках -ноль, при запуске в логах какая-то ахинея, которую никто не может объяснить, устойчивость работы - ниже плинтуса. Просто пришлось переустановить полностью.
Но и первый агент не подарок.
1. агент не запускается и падает когда есть проблемы со счётчиками производительности. Достаточно включить дебаг 5 и увидите, чем агент занимается, типа гуся дёргает. Кому нужны эти счётчики на workstation?
2. агент просто падает с завидной частотой примерно 15-20 падений на 1000 узлов в день. Это просто катастрофа, когда имеешь на мониторинге несколько тысяч узлов. Что с этим делать? Наверно можно по триггеру запускать некую процедуру типа sc \\crashed_server start "zabbix agent". Но вот беда, zabbix server - это linux. Он таких команд не знает. Знает net rpc ... Но чего-то вменяемого из этой команды получить не могу. Мало того, чтобы толком воспользоваться этим, нужно открыть порты 135, 139, 445, что для служб безопасности как красная тряпка для быка. Магическая фраза Agent stopped всегда совпадает с некоей уникальной процедурой, связанной, опять же, с опросом счётчиков производительности. Возможно опрос счётчиков является вторичным по отношению к поведению Windows.
3. агент не стартует если произошло аварийное выключение узла. Как только в логе появляется, что система после старта восстановлена после ошибки, получаем запись - служба не ответила в течении 30000 (или 45000) мс.
В общем, когда для системы мониторинга приходится разворачивать систему контроля её работы, а потом контроль контроля и так далее - это уже не мониторинг, а какой-то балаган. Стремление разработчиков наворачивать новую функциональность похвально, но если не работает основа, толку от заоблачной функциональности?
Comment