Всем добрый день
Регулярно отваливается агент на нескольких серверах при попытке считать стандартные счетчики, в Debug 4 на стороне агента типа такого:
На стороне сервера в этот момент:
В этот момент на серверах полно свободных ресурсов и замечательно работает Nagios, получая те же данные. Пробовал менять версию агента, разрядность и различное "авось" (типа таймаутов, startagents и прочего). Проявляется на разных операционных системах Windows (2008/2012R2). Не постоянно, несколько раз в час, поэтому количество ложных писем "тревога, парень" ужасает. Реагировать на них нет смысла, но хуже всего, что нет данных.
Версия zabbix 3.4.3
Приятного мало, т.к. вначале были просто пропадания данных, теперь вообще агенты отваливаются.
У кого-нибудь такое встречалось ? И как оно лечится ?
Или смириться и оставаться на Nagios (за все время экспериментов ни одного лишнего аларма с этих хостов) ?
Регулярно отваливается агент на нескольких серверах при попытке считать стандартные счетчики, в Debug 4 на стороне агента типа такого:
Code:
19876:20171103:104226.072 get_perf_counter_value_by_path(): cannot collect data '\\SRVIT4\System\File Read Bytes/sec': [0x00000102] unable to find message text: [0x0000013D] The system cannot find message text for message number 0x%1 in the message file for %2. 19876:20171103:104226.072 get_perf_counter_value_by_path(): cannot calculate counter value '\\SRVIT4\System\File Read Bytes/sec': [0x00000102] unable to find message text: [0x0000013D] The system cannot find message text for message number 0x%1 in the message file for %2.
Code:
17865:20171103:083720.441 Zabbix agent item "system.cpu.util[,,avg1]" on host "SRVIT1" failed: first network error, wait for 15 seconds 17865:20171103:083733.447 Zabbix agent item "system.cpu.load[percpu,avg5]" on host "SRVIT4" failed: another network error, wait for 15 seconds 17865:20171103:083735.461 resuming Zabbix agent checks on host "SRVIT1": connection restored 17865:20171103:083739.494 Zabbix agent item "perf_counter[\234(_Total)\1404]" on host "SRVIT1" failed: first network error, wait for 15 seconds 17865:20171103:083748.503 resuming Zabbix agent checks on host "SRVIT4": connection restored
Версия zabbix 3.4.3
Приятного мало, т.к. вначале были просто пропадания данных, теперь вообще агенты отваливаются.
У кого-нибудь такое встречалось ? И как оно лечится ?
Или смириться и оставаться на Nagios (за все время экспериментов ни одного лишнего аларма с этих хостов) ?
Comment