Доброго времени суток.
Неожиданно обнаружил, что на item net.tcp.service ( тип item'а - zabbix agent ) нельзя полагаться. В случае, если доступа нет по причине no route to host, он действительно покажет проблему, но в случае connection timed out - просто не будет получать данные.
В debug логе:
Т.е. сервер zabbix принимает таймаут за сетевую ошибку ( NETWORK_ERROR ) и делает повторную проверку прежде чем перевести item в disabled. Но это не сетевая ошибка, и через 15 секунд при повторной проверке счётчик ошибок сбрасывается. Получение данных снова прерывается по таймауту, который опять-таки воспринимается как [первая] сетевая ошибка. И так до бесконечности. Данных нет, но и item не переходит в disabled.
И в результате, на такой мониторинг нельзя полагаться
Неожиданно обнаружил, что на item net.tcp.service ( тип item'а - zabbix agent ) нельзя полагаться. В случае, если доступа нет по причине no route to host, он действительно покажет проблему, но в случае connection timed out - просто не будет получать данные.
Code:
[root@zabbix /]# time { zabbix_get -s 10.1.1.2 -k 'net.tcp.service[tcp,10.10.1.5,80]'; }
0
real 0m21.240s
user 0m0.000s
sys 0m0.001s
В debug логе:
Code:
19238:20130921:144102.848 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
19246:20130921:144117.529 resuming Zabbix agent checks on host [client]: connection restored
19236:20130921:144602.942 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
19246:20130921:144617.686 resuming Zabbix agent checks on host [client]: connection restored
19237:20130921:145102.657 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
19246:20130921:145117.849 resuming Zabbix agent checks on host [client]: connection restored
19241:20130921:145602.892 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
19246:20130921:145618.004 resuming Zabbix agent checks on host [client]: connection restored
19240:20130921:150102.103 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
И в результате, на такой мониторинг нельзя полагаться