Ad Widget

Collapse

Мониторинг zabbix agent tcp.net.service не надёжен для случая "connection tim

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • madrouter
    Junior Member
    • May 2013
    • 6

    #1

    Мониторинг zabbix agent tcp.net.service не надёжен для случая "connection tim

    Доброго времени суток.

    Неожиданно обнаружил, что на item net.tcp.service ( тип item'а - zabbix agent ) нельзя полагаться. В случае, если доступа нет по причине no route to host, он действительно покажет проблему, но в случае connection timed out - просто не будет получать данные.

    Code:
    [root@zabbix /]# time { zabbix_get -s 10.1.1.2 -k 'net.tcp.service[tcp,10.10.1.5,80]'; } 
    0
    
    real    0m21.240s
    user    0m0.000s
    sys     0m0.001s

    В debug логе:

    Code:
    19238:20130921:144102.848 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
     19246:20130921:144117.529 resuming Zabbix agent checks on host [client]: connection restored
     19236:20130921:144602.942 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
     19246:20130921:144617.686 resuming Zabbix agent checks on host [client]: connection restored
     19237:20130921:145102.657 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
     19246:20130921:145117.849 resuming Zabbix agent checks on host [client]: connection restored
     19241:20130921:145602.892 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
     19246:20130921:145618.004 resuming Zabbix agent checks on host [client]: connection restored
     19240:20130921:150102.103 Zabbix agent item [net.tcp.service[tcp,{$WSUS_IP},80]] on host [client] failed: first network error, wait for 15 seconds
    Т.е. сервер zabbix принимает таймаут за сетевую ошибку ( NETWORK_ERROR ) и делает повторную проверку прежде чем перевести item в disabled. Но это не сетевая ошибка, и через 15 секунд при повторной проверке счётчик ошибок сбрасывается. Получение данных снова прерывается по таймауту, который опять-таки воспринимается как [первая] сетевая ошибка. И так до бесконечности. Данных нет, но и item не переходит в disabled.

    И в результате, на такой мониторинг нельзя полагаться
Working...