Проблема с агентами если первый резольвер не доступен в /etc/resolv.conf
Второй раз наступаю на эти грабли, собственно отказ всей системы мониторинга вызван падением резольвера, в /etc/resolv.conf имеются три резольвера, при падении первого все агенты перстают отвечать серверу, проблема на версии 1.6.х и на версии 1.8.х, в агентах сервер указан по hostname, замена резольвера в /etc/resolv.conf решает проблему - это не вариант, соглачитесь глупо при отказе одного резольвера править данный файлик на 600+ хостах.
Настройки агентов по IP то же не вариант ибо должно работать и так, очень смахивает на баг, куда копать и как решить данную проблему?
Вообщем отказ первого резольвера приводит к полной остановки мониторинга, в логах имею следующее:
Второй раз наступаю на эти грабли, собственно отказ всей системы мониторинга вызван падением резольвера, в /etc/resolv.conf имеются три резольвера, при падении первого все агенты перстают отвечать серверу, проблема на версии 1.6.х и на версии 1.8.х, в агентах сервер указан по hostname, замена резольвера в /etc/resolv.conf решает проблему - это не вариант, соглачитесь глупо при отказе одного резольвера править данный файлик на 600+ хостах.
Настройки агентов по IP то же не вариант ибо должно работать и так, очень смахивает на баг, куда копать и как решить данную проблему?
Вообщем отказ первого резольвера приводит к полной остановки мониторинга, в логах имею следующее:
Code:
... 17652:20100617:220802.713 ZABBIX Host [хххххх.хх]: first network error, wait for 15 seconds 17602:20100617:220802.841 ZABBIX Host [хххххх.хх]: another network error, wait for 15 seconds 17632:20100617:220803.137 ZABBIX Host [хххххх.хх]: another network error, wait for 15 seconds 17629:20100617:220803.171 ZABBIX Host [хххххх.хх]: another network error, wait for 15 seconds 17642:20100617:220807.119 ZABBIX Host [хххххх.хх]: another network error, wait for 15 seconds ...