11 到達不能/使用不可のホストインターフェース設定

概要

いくつかの設定パラメータは、エージェントチェック(Zabbix、SNMP、IPMI、JMX)が失敗し、ホストインターフェイスに到達できなくなった場合のZabbixサーバーの動作を定義します。

到達不能なインターフェース

ホストインターフェースは、Zabbix、SNMP、IPMI、または JMX エージェントによるチェックが失敗した後(ネットワークエラー、タイムアウト)に、到達不能として扱われます。Zabbix 6.2.0 以降では、アクティブな Zabbix エージェントチェックもインターフェースの可用性に影響します。アクティブチェックが利用不可になると、エージェントインターフェース全体の可用性ステータスに反映されます。

インターフェースが到達不能になった時点から、UnreachableDelay は、1 つのアイテム(LLD ルールを含む)を使用してどのくらいの頻度で再チェックするかを定義します。
これらの再チェックは、到達不能ポーラー(または IPMI チェックの場合は IPMI ポーラー)によって実行されます。
デフォルトでは、連続する到達性チェックの間隔は 15 秒です。

非同期ポーラーによって実行されるチェックは、到達不能ポーラーには移されません。

Zabbix サーバーのログでは、到達不能は次のようなメッセージで示されます。

Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

ログメッセージには、失敗した正確なアイテムとそのタイプ(Zabbix エージェント)が示されます。

Timeout パラメータも、到達不能時にインターフェースがどれだけ早く再チェックされるかに影響します。Timeout が 20 秒、UnreachableDelay が 30 秒に設定されている場合、次のチェックは最初の試行から 50 秒後に行われます。

UnreachablePeriod パラメータは、到達不能期間の合計時間を定義します。デフォルトでは UnreachablePeriod は 45 秒です。
この値は、インターフェースが利用不可とマークされる前に複数回再チェックされるようにするため、UnreachableDelay の数倍以上にする必要があります。

内部アイテム zabbix[host,active_agent,available] を使用すると、到達不能シナリオにおけるアクティブチェックの可用性を監視できます。

インターフェイスを到達可能に戻す

到達不能期間が終了すると、インターフェイスが再度ポーリングされ、インターフェイスを到達不能状態にしたアイテムの優先度が低下します。到達不能なインターフェイスが再び到達可能になると、監視は自動的に通常に戻ります。

resuming Zabbix agent checks on host "New host": connection restored

インターフェイスが使用可能になっても、ホストは次の2つの理由ですべてのアイテムをすぐにポーリングしません。

  • ホストが過負荷になる可能性があります。
  • インターフェイスの復元時間は、計画されたアイテムのポーリングスケジュール時間と常に一致するとは限りません。

そのため、インターフェイスが使用可能になった後、アイテムはすぐにはポーリングされず、次のポーリングラウンドに再スケジュールされます。

利用不可のインターフェース

UnreachablePeriod が終了してもインターフェースが再び現れない場合、 そのインターフェースは利用不可として扱われます。

サーバーのログでは、次のようなメッセージで示されます。

temporarily disabling Zabbix agent checks on host "New host": interface unavailable

また、 Webインターフェース では、ホストの可用性アイコンが緑/グレーから黄/赤に変わります(利用不可のインターフェースの詳細は、ホストの可用性アイコンにマウスカーソルを合わせたときに表示されるヒントボックスで確認できます)。

UnavailableDelay パラメータは、インターフェースが利用不可の間に、 そのインターフェースをどのくらいの頻度でチェックするかを定義します。

デフォルトでは 60 秒です(したがって、この場合、上記のログメッセージにある "temporarily disabling" は、1 分間チェックを無効にすることを意味します)。

インターフェースへの接続が復旧すると、監視も自動的に通常の状態に戻ります。

enabling Zabbix agent checks on host "New host": interface became available