9 维护

概述

维护用于在预定义的时间段内抑制问题。

您可以在 Zabbix 中为主机和主机组定义维护周期。

此外,也可以通过指定触发器标签,仅为单个触发器(或触发器子集)定义维护。 在这种情况下,维护只会对这些触发器生效;该主机或主机组的其他所有触发器都不会处于维护中。

维护类型有两种:With data collectionNo data collection

With data collection 维护期间,触发器会照常处理,并在需要时创建事件。 但是,如果在 action configuration 中勾选了 Pause operations for suppressed problems 选项,则处于维护中的主机/触发器的问题升级将被暂停。 在这种情况下,可能包括发送通知或远程命令的升级步骤,在维护期内都会被忽略。 请注意,问题恢复和更新操作在维护期间不会被抑制,只有升级会被抑制。 如果问题是在维护期间开始的,则不会发送恢复通知。

例如,如果升级步骤安排在问题开始后的 0、30 和 60 分钟执行,而在真实问题出现后 10 分钟到 40 分钟之间存在一个持续半小时的维护,那么第二和第三个步骤将会延后半小时执行,也就是在 60 分钟和 90 分钟时执行(前提是问题仍然存在)。 同样,如果问题是在维护期间出现的,则升级会在维护结束后开始。

如果要在维护期间正常接收问题通知(不延迟),需要在 action configuration 中取消勾选 Pause operations for suppressed problems 选项。

如果至少有一个主机(用于触发器表达式)不处于维护模式,Zabbix 将发送问题通知。

维护期间 Zabbix 服务器必须保持运行。 如果维护周期发生变化,维护会每分钟重新计算一次,或者在配置缓存重新加载后立即重新计算。

定时器进程会在每分钟的 0 秒检查主机状态是否需要切换到/从维护状态。 此外,每秒定时器进程都会根据配置更新后是否有 [maintenance periods] 的变化,检查是否需要启动/停止任何维护。 因此,启动/停止维护周期的速度取决于配置 update interval(默认 10 秒)。 请注意,维护周期的变更不包括 Active since/Active till 设置。 另外,如果将主机/主机组添加到一个已存在的活动维护周期中,这些更改只会在下一分钟开始时由定时器进程激活。

请注意,当主机进入维护时,Zabbix 服务器定时器进程会读取所有未关闭的问题,以检查是否需要抑制这些问题。 如果未关闭的问题很多,这可能会影响性能。 即使当前没有配置任何维护,Zabbix 服务器在启动时也会读取所有未关闭的问题。

请注意,无论维护类型如何(包括 No data collection 维护),Zabbix 服务器(或 proxy)始终会收集数据。 之后,如果设置了 No data collection,这些数据会被服务器忽略。

No data collection 维护结束后,使用 nodata() 函数的触发器在其检查周期内,在下一次检查之前不会触发。

如果在主机处于维护期间添加了一个日志监控项,而维护随后结束,则只会收集自维护结束以来的新日志文件条目。

如果向处于 No data collection 维护中的主机发送带时间戳的值(例如使用 Zabbix sender),则该值会被丢弃;不过,向已过期的维护周期发送带时间戳的值是可以接受的。

如果用户更改了维护周期、主机、组或标签,这些更改只有在配置缓存同步后才会生效。

配置

要配置维护周期:

  1. 转到:Data collection > Maintenance
  2. 单击 Create maintenance period(或现有维护周期的名称)。
  3. 在表单中输入维护参数。

所有必填输入字段都用红色星号标记。

Parameter Description
Name 维护周期的名称。
Maintenance type 可设置两种维护类型:
With data collection - 在维护期间,数据由服务器收集,并处理触发器;
No data collection - 数据仍可能被收集,但在维护期间不会保存到数据库中,并且触发器(包括 nodata() 函数)不会触发。
有关每种类型如何影响可用性报告,请参见维护周期的影响
Active since 执行维护周期开始生效的日期和时间。
注意: 仅设置此时间不会激活维护周期;必须在 Periods 中配置维护周期(见下文)。
Active till 执行维护周期停止生效的日期和时间。
Periods 此块允许您定义维护发生的具体日期和小时。单击 会打开一个弹出窗口,其中包含灵活的 Maintenance period 表单,您可以在其中定义维护计划。有关详细说明,请参见维护周期
Host groups 选择要为其激活维护的主机组。该维护将对指定主机组中的所有主机生效。此字段支持自动补全,因此开始输入时会显示所有可用主机组的下拉列表。
指定父主机组会隐式选择其所有嵌套主机组。因此,维护也将对嵌套组中的主机生效。
Hosts 选择要为其激活维护的主机。此字段支持自动补全,因此开始输入时会显示所有可用主机的下拉列表。
Tags 指定标签,以便对维护中的主机上具有匹配标签的问题进行抑制
可以设置多个条件。标签名称匹配始终区分大小写。

每个条件有两个可用运算符:
Contains - 包含指定的标签名称,其中标签值包含输入的字符串(子字符串匹配,区分大小写);
Equals - 包含指定的标签名称和值(区分大小写)。

条件有两种计算类型:
And/Or - 必须满足所有条件,具有相同标签名称的条件将按 Or 条件分组;
Or - 满足其中一个条件即可。

仅当选择 With data collection 维护类型时,才能指定标签。
Description 维护周期的描述。
维护时段

维护时段窗口用于为周期性或一次性维护安排时间。 该表单是动态的,可用字段会根据所选的 时段类型 发生变化。

时段类型 说明
仅一次 配置一次性维护时段:
日期 - 维护时段的日期和时间;
维护时段长度 - 维护将保持活动状态的时长。
每日 配置每日维护时段:
每隔 N 天 - 维护频率(1 - (默认) 每天,2 - 每两天一次,依此类推);
在(时:分) - 维护开始的当天时间;
维护时段长度 - 维护将保持活动状态的时长。

每隔 N 天 参数大于“1”时,起始日为 活动自 时间所在的那一天。示例:
- 如果 活动自 设置为“2021-01-01 12:00”,每隔 N 天 设置为“2”,且 在(时:分) 设置为“23:00”,则第一个维护时段将于 1 月 1 日 23:00 开始,第二个维护时段将于 1 月 3 日 23:00 开始;
- 如果 活动自 设置为“2021-01-01 12:00”,每隔 N 天 设置为“2”,且 在(时:分) 设置为“01:00”,则第一个维护时段将于 1 月 3 日 01:00 开始,第二个维护时段将于 1 月 5 日 01:00 开始。
每周 配置每周维护时段:
每隔 N 周 - 维护频率(1 - (默认) 每周,2 - 每两周一次,依此类推);
星期几 - 维护应在哪一天进行;
在(时:分) - 维护开始的当天时间;
维护时段长度 - 维护将保持活动状态的时长。

每隔 N 周 参数大于“1”时,起始周为 活动自 时间所在的那一周。示例请参见上文 每日 参数说明。
每月 配置每月维护时段:
月份 - 选择执行定期维护的所有月份;
日期:每月第几天 - 如果维护应在每月相同日期进行(例如每月 1 日),请选择此选项,然后在出现的 每月第几天 字段中选择所需日期;
日期:星期几 - 如果维护应仅在某些特定日期进行(例如每月第一个星期一),请选择此选项,然后在下拉列表中选择所需的月份中的周次(第一、第二、第三、第四或最后一周),再勾选维护日;
在(时:分) - 维护开始的当天时间;
维护时段长度 - 维护将保持活动状态的时长。

在创建维护期时,使用创建者的时区。 然而,当选定维护周期(每天每周每月)时,会使用使用 Zabbix Server的时区。 为确保重复维护期内的可预测行为,需要在为Zabbix 的所有部分分配使用统一的时区设置。

完成后,点击 Add 将维护周期添加到 Periods 区块。

请注意,夏令时(DST)变更不会影响维护持续的时长。 例如,假设我们配置了一个两小时的维护,通常从 01:00 开始并在 03:00 结束:

  • 如果在维护进行一小时后(02:00)发生 DST 变更,当前时间从 02:00 变为 03:00,则维护将继续再持续一小时(直到 04:00);
  • 如果在维护进行两小时后(03:00)发生 DST 变更,当前时间从 03:00 变为 02:00,则维护将停止,因为两小时已经过去;
  • 如果维护周期开始于 DST 变更所跳过的那个小时,则维护不会开始。

如果维护周期设置为“1 day”(维护的实际周期为 24 小时,因为 Zabbix 按小时计算天数),并且从 00:00 开始,在次日 00:00 结束:

  • 如果当前时间向前调整一小时,则维护将在次日 01:00 停止;
  • 如果当前时间向后调整一小时,则维护将在当天 23:00 停止。

展示

在维护中显示主机

主机名称旁边的橙色扳手图标 表示该主机在以下位置处于维护中:

  • 仪表板
  • 监控 > 问题
  • 资产记录 > 主机 > 主机资产记录详情
  • 数据采集 > 主机(参见“状态”列)

将鼠标指针悬停在该图标上时,会显示维护详情。

此外,处于维护中的主机在 监控 > 拓扑图 中会显示为橙色背景。

显示被抑制的问题

通常,处于维护中的主机的问题会被抑制,也就是说不会在前端中显示。
不过,也可以通过在以下位置选择 显示被抑制的问题 选项来配置显示这些被抑制的问题:

  • 仪表板(在 问题主机问题按严重性划分的问题触发器概览 小部件配置中)
  • 监控 > 问题(在过滤器中)
  • 监控 > 地图(在地图配置中)
  • 全局 通知(在用户配置文件配置中)

当显示被抑制的问题时,会显示以下图标:
将鼠标悬停在该图标上会显示更多详细信息。

维护期间队列的计算

Zabbix 前端(管理 > 队列)中显示的队列由 Zabbix 服务器计算。 其中不包括处于 不收集数据 维护状态的监控项,即使这些监控项的值已延迟,其队列长度也始终为零。 处于 收集数据 维护状态的延迟监控项仍会被计入队列。

Zabbix proxy 并不知道维护时间段,因为 Zabbix 服务器与 proxy 之间不会同步维护配置。 在 Zabbix proxy 上计算的内部检查(例如,zabbix[queue,,]zabbix[stats,,,queue,,])会报告延迟的监控项,而不考虑 Zabbix 服务器上的维护状态。

因此,对于处于 不收集数据 维护状态的同一批监控项,Zabbix 前端与 Zabbix proxy 上的内部检查可能会报告不同的队列长度。