Las expresiones utilizadas en disparadores son muy flexibles. Puede usarlas para crear pruebas lógicas complejas sobre estadísticas monitorizadas.
Una expresión simple utiliza una función que se aplica a la métrica con algunos parámetros. La función devuelve un resultado que se compara con el umbral, utilizando un operador y una constante.
La sintaxis de una expresión simple y útil es function(/equipo/key,parameter)<operador><constante>
.
Por ejemplo:
se activará si el número de bytes recibidos durante los últimos cinco minutos fue siempre superior a 100 kilobytes.
Aunque la sintaxis es exactamente la misma, desde el punto de vista funcional existen dos tipos de expresiones de disparador:
Al definir solo una expresión de problema, esta expresión se utilizará tanto como umbral de problema como de recuperación. Tan pronto como la expresión de problema se evalúe como VERDADERA, hay un problema. Tan pronto como la expresión de problema se evalúe como FALSA, el problema se resuelve.
Al definir tanto la expresión de problema como la expresión de recuperación suplementaria, la resolución del problema se vuelve más compleja: no solo la expresión de problema debe ser FALSA, sino que también la expresión de recuperación debe ser VERDADERA. Esto es útil para crear histeresis y evitar el parpadeo del disparador.
No es productivo utilizar la macro {TRIGGER.VALUE} en una expresión de recuperación porque esta expresión solo se evalúa cuando el disparador está en estado "Problema". En consecuencia, {TRIGGER.VALUE} siempre se resolverá como "1" (lo que indica un estado de "Problema") al evaluar la expresión.
Las funciones permiten calcular los valores recolectados (promedio, mínimo, máximo, suma), buscar cadenas, referenciar la hora actual y otros factores.
Está disponible una lista completa de funciones soportadas.
Normalmente, las funciones devuelven valores numéricos para su comparación. Al devolver cadenas, la comparación es posible con los operadores = y <> (ver ejemplo).
Los parámetros de función permiten especificar:
El equipo y la clave de la métrica pueden especificarse como /equipo/clave
.
Si se omite el equipo (es decir, como en function(//clave,parámetro,...)
), la función hará referencia al equipo actual.
La métrica referenciada debe estar en un estado soportado (excepto para la función nodata(), que también se calcula para métricas no soportadas).
Mientras que otras expresiones de disparador como parámetros de función están limitadas a funciones que no son de historial en disparadores, esta limitación no se aplica en métricas calculadas.
Los parámetros específicos de la función se colocan después de la clave de la métrica y se separan de la clave de la métrica por una coma. Consulte las funciones soportadas para obtener una lista completa de estos parámetros.
La mayoría de las funciones numéricas aceptan el tiempo como parámetro. Puede utilizar segundos o sufijos de tiempo para indicar el tiempo. Precedido por una almohadilla, el parámetro tiene un significado diferente:
Expresión | Descripción |
---|---|
sum(/equipo/clave,10m) | Suma de los valores en los últimos 10 minutos. |
sum(/equipo/clave,#10) | Suma de los últimos diez valores. |
Los parámetros con una almohadilla tienen un significado diferente con la función last: denotan el N-ésimo valor anterior, por lo que, dados los valores 30, 70, 20, 60, 50 (del más reciente al menos reciente):
last(/equipo/clave,#2)
devolvería '70'last(/equipo/clave,#5)
devolvería '50'Se admite un desplazamiento temporal opcional con el tiempo o el recuento de valores como parámetro de la función. Este parámetro permite hacer referencia a datos de un período de tiempo en el pasado.
El desplazamiento temporal comienza con now
, que especifica la hora actual, y es seguido por +N<unidad de tiempo>
o -N<unidad de tiempo>
, para sumar o restar N unidades de tiempo.
Por ejemplo, avg(/equipo/clave,1h:now-1d)
devolverá el valor promedio de una hora hace un día.
El desplazamiento temporal especificado en meses (M) y años (y) solo es compatible con funciones de tendencias. Otras funciones admiten segundos (s), minutos (m), horas (h), días (d) y semanas (w).
Desplazamiento temporal con períodos de tiempo absolutos
Se admiten períodos de tiempo absolutos en el parámetro de desplazamiento temporal, por ejemplo, de medianoche a medianoche para un día, de lunes a domingo para una semana, del primer día al último día del mes para un mes.
El desplazamiento temporal para períodos de tiempo absolutos comienza con now
, que especifica la hora actual, y es seguido por cualquier número de operaciones de tiempo: /<unidad de tiempo>
: define el inicio y el final de la unidad de tiempo, por ejemplo, de medianoche a medianoche para un día, +N<unidad de tiempo>
o -N<unidad de tiempo>
: para sumar o restar N unidades de tiempo.
Tenga en cuenta que el valor del desplazamiento temporal puede ser mayor o igual a 0, mientras que el valor mínimo del período de tiempo es 1.
Parámetro | Descripción |
---|---|
1d:now/d | Ayer |
1d:now/d+1d | Hoy |
2d:now/d+1d | Últimos 2 días |
1w:now/w | Semana pasada |
1w:now/w+1w | Esta semana |
Los parámetros de función pueden contener otras expresiones, como en la siguiente sintaxis:
Tenga en cuenta que no se pueden usar otras expresiones si la función hace referencia al historial de la métrica. Por ejemplo, la siguiente sintaxis no está permitida:
min(/equipo/métrica,#5*10)
Se admiten los siguientes operadores para disparadores (en orden descendente de prioridad de ejecución):
Prioridad | Operador | Definición | Notas para valores desconocidos | Forzar conversión del operando a float 1 |
---|---|---|---|---|
1 | - | Menos unario | -Desconocido → Desconocido | Sí |
2 | not | Negación lógica | not Desconocido → Desconocido | Sí |
3 | * | Multiplicación | 0 * Desconocido → Desconocido (sí, Desconocido, distinto de 0 - para no perder Desconocido en operaciones aritméticas) 1.2 * Desconocido → Desconocido |
Sí |
/ | División | Desconocido / 0 → error Desconocido / 1.2 → Desconocido 0.0 / Desconocido → Desconocido |
Sí | |
4 | + | Suma aritmética | 1.2 + Desconocido → Desconocido | Sí |
- | Resta aritmética | 1.2 - Desconocido → Desconocido | Sí | |
5 | < | Menor que. El operador se define como: A<B ⇔ (A<B-0.000001) |
1.2 < Desconocido → Desconocido | Sí |
<= | Menor o igual que. El operador se define como: A<=B ⇔ (A≤B+0.000001) |
Desconocido <= Desconocido → Desconocido | Sí | |
> | Mayor que. El operador se define como: A>B ⇔ (A>B+0.000001) |
Sí | ||
>= | Mayor o igual que. El operador se define como: A>=B ⇔ (A≥B-0.000001) |
Sí | ||
6 | = | Igual a. El operador se define como: A=B ⇔ (A≥B-0.000001) y (A≤B+0.000001) |
No 1 | |
<> | Distinto de. El operador se define como: A<>B ⇔ (A<B-0.000001) o (A>B+0.000001) |
No 1 | ||
7 | and | Y lógico | 0 and Desconocido → 0 1 and Desconocido → Desconocido Desconocido and Desconocido → Desconocido |
Sí |
8 | or | O lógico | 1 or Desconocido → 1 0 or Desconocido → Desconocido Desconocido or Desconocido → Desconocido |
Sí |
1 El operando de tipo cadena aún se convierte a numérico si:
(Si la conversión falla, el operando numérico se convierte a cadena y ambos operandos se comparan como cadenas.)
Los operadores not, and y or distinguen entre mayúsculas y minúsculas y deben estar en minúsculas. También deben estar rodeados de espacios o paréntesis.
Todos los operadores, excepto el - unario y not, tienen asociatividad de izquierda a derecha. El - unario y not son no asociativos (lo que significa que se debe usar -(-1) y not (not 1) en lugar de --1 y not not 1).
Resultado de la evaluación:
Los valores necesarios para la evaluación de disparadores son almacenados en caché por el servidor Zabbix. Debido a esto, la evaluación de disparadores provoca una mayor carga en la base de datos durante algún tiempo después de reiniciar el servidor. La caché de valores no se borra cuando los valores históricos de las métricas se eliminan (ya sea manualmente o por el housekeeper), por lo que el servidor utilizará los valores en caché hasta que sean más antiguos que los períodos de tiempo definidos en las funciones de disparador o hasta que el servidor se reinicie.
Si no hay datos recientes en la caché y no hay un período de consulta definido en la función, Zabbix, por defecto, buscará en el pasado hasta una semana para consultar la base de datos en busca de valores históricos.
La carga del procesador es demasiado alta en el servidor Zabbix.
Al usar la función 'last()', estamos haciendo referencia al valor más reciente. /Zabbix server/system.cpu.load[all,avg1]
proporciona un nombre corto del parámetro monitorizado. Especifica que el equipo es 'Zabbix server' y la clave que se está monitorizando es 'system.cpu.load[all,avg1]'. Finalmente, >5
significa que el disparador está en estado de PROBLEMA siempre que la medición más reciente de la carga del procesador del servidor Zabbix sea mayor que 5.
www.example.com está sobrecargado.
last(/www.example.com/system.cpu.load[all,avg1])>5 or min(/www.example.com/system.cpu.load[all,avg1],10m)>2
La expresión es verdadera cuando la carga actual del procesador es mayor que 5 o la carga del procesador fue mayor que 2 durante los últimos 10 minutos.
/etc/passwd ha sido modificado.
last(/www.example.com/vfs.file.cksum[/etc/passwd],#1)<>last(/www.example.com/vfs.file.cksum[/etc/passwd],#2)
La expresión es verdadera cuando el valor anterior del checksum de /etc/passwd difiere del más reciente.
Expresiones similares pueden ser útiles para monitorizar cambios en archivos importantes, como /etc/passwd, /etc/inetd.conf, /kernel, etc.
Alguien está descargando un archivo grande de Internet.
Uso de la función min:
La expresión es verdadera cuando el número de bytes recibidos en eth0 es superior a 100 KB en los últimos 5 minutos.
Ambos nodos del servidor SMTP en clúster están caídos.
Observe el uso de dos equipos diferentes en una expresión:
last(/smtp1.example.com/net.tcp.service[smtp])=0 and last(/smtp2.example.com/net.tcp.service[smtp])=0
La expresión es verdadera cuando ambos servidores SMTP están caídos tanto en smtp1.example.com como en smtp2.example.com.
Es necesario actualizar el agente Zabbix.
Uso de la función find():
La expresión es verdadera si el agente Zabbix tiene la versión beta8.
El servidor no es accesible.
La expresión es verdadera si el equipo "example.example.com" no es accesible más de 5 veces en los últimos 30 minutos.
Sin latidos en los últimos 3 minutos.
Uso de la función nodata():
Para utilizar este disparador, 'tick' debe definirse como una métrica trapper de Zabbix. El equipo debe enviar periódicamente datos para esta métrica utilizando zabbix_sender. Si no se reciben datos en 180 segundos, el valor del disparador pasa a ser PROBLEMA.
Tenga en cuenta que 'nodata' puede utilizarse para cualquier tipo de métrica.
Actividad de CPU durante la noche.
Uso de la función time():
El disparador puede cambiar su estado a problema solo durante la noche (00:00 - 06:00).
Actividad de CPU en cualquier momento con excepción.
Uso de la función time() y el operador not:
min(/zabbix/system.cpu.load[all,avg1],5m)>2
and not (dayofweek()=7 and time()>230000)
and not (dayofweek()=1 and time()<010000)
El disparador puede cambiar su estado a problema en cualquier momento, excepto durante 2 horas en el cambio de semana (domingo, 23:00 - lunes, 01:00).
Compruebe si la hora local del cliente está sincronizada con la hora del servidor Zabbix.
Uso de la función fuzzytime():
El disparador cambiará al estado de problema en caso de que la hora local en el equipo MySQL_DB y el servidor Zabbix difieran en más de 10 segundos. Tenga en cuenta que 'system.localtime' debe configurarse como una comprobación pasiva.
Comparando la carga promedio de hoy con la carga promedio de la misma hora de ayer (usando el desplazamiento de tiempo como now-1d
).
El disparador se activará si la carga promedio de la última hora supera la carga promedio de la misma hora de ayer más de dos veces.
Usar el valor de otra métrica para obtener un umbral de disparo:
last(/Template PfSense/hrStorageFree[{#SNMPVALUE}])<last(/Template PfSense/hrStorageSize[{#SNMPVALUE}])*0.1
El disparador se activará si el almacenamiento libre cae por debajo del 10 por ciento.
Usando el resultado de la evaluación para obtener el número de disparadores por encima de un umbral:
(last(/server1/system.cpu.load[all,avg1])>5) + (last(/server2/system.cpu.load[all,avg1])>5) + (last(/server3/system.cpu.load[all,avg1])>5)>=2
El disparador se activará si al menos dos de los disparadores en la expresión están en estado de problema.
Comparar valores de cadena de dos métricas: los operandos aquí son funciones que devuelven cadenas.
Problema: crear una alerta si la versión de Ubuntu es diferente en diferentes equipos
last(/NY Zabbix server/vfs.file.contents[/etc/os-release])<>last(/LA Zabbix server/vfs.file.contents[/etc/os-release])
Comparando dos valores de cadena - los operandos son:
Problema: detectar cambios en la consulta DNS
La clave de la métrica es:
con macros definidas como
y normalmente devuelve:
Así que nuestra expresión de disparador para detectar si el resultado de la consulta DNS se desvió del resultado esperado es:
last(/Zabbix server/net.dns.record[192.0.2.0,{$WEBSITE_NAME},{$DNS_RESOURCE_RECORD_TYPE},2,1])<>"{$WEBSITE_NAME} {$DNS_RESOURCE_RECORD_TYPE} 0 mail.{$WEBSITE_NAME}"
Observe las comillas alrededor del segundo operando.
Comparando dos valores de cadena - los operandos son:
Problema: detectar si el contenido del archivo /tmp/hello
es igual a:
Opción 1) escribir la cadena directamente
Observe cómo los caracteres \ y " se escapan cuando la cadena se compara directamente.
Opción 2) usar una macro
en la expresión:
Comparando periodos a largo plazo.
Problema: La carga del servidor Exchange aumentó en más del 10% el mes pasado
También puede utilizar el campo Nombre del evento en la configuración del disparador para construir un mensaje de alerta significativo, por ejemplo, para recibir algo como
"La carga del servidor Exchange aumentó un 24% en julio (0.69) en comparación con junio (0.56)"
el nombre del evento debe definirse como:
La carga del servidor {HOST.HOST} aumentó un {{?100*trendavg(//system.cpu.load,1M:now/M)/trendavg(//system.cpu.load,1M:now/M-1M)}.fmtnum(0)}% en {{TIME}.fmttime(%B,-1M)} ({{?trendavg(//system.cpu.load,1M:now/M)}.fmtnum(2)}) en comparación con {{TIME}.fmttime(%B,-2M)} ({{?trendavg(//system.cpu.load,1M:now/M-1M)}.fmtnum(2)})
También es útil permitir el cierre manual en la configuración del disparador para este tipo de problema.
¿Tienes un ejemplo de expresiones de disparadores que pueda ser útil para otros? Utiliza el formulario de sugerencia de ejemplo para enviarlo a los desarrolladores de Zabbix.
A veces se necesita un intervalo entre los estados de problema y recuperación, en lugar de un simple umbral. Por ejemplo, si queremos definir un disparador que informe de un problema cuando la temperatura de la sala de servidores supere los 20°C y queremos que permanezca en estado de problema hasta que la temperatura baje de 15°C, un simple umbral de disparador en 20°C no será suficiente.
En su lugar, necesitamos definir primero una expresión de disparador para el evento de problema (temperatura superior a 20°C). Luego necesitamos definir una condición de recuperación adicional (temperatura inferior a 15°C). Esto se hace definiendo un parámetro adicional Expresión de recuperación al definir un disparador.
En este caso, la recuperación del problema se realizará en dos pasos:
La expresión de recuperación solo se evaluará cuando el evento de problema se resuelva primero.
¡La expresión de recuperación siendo VERDADERA por sí sola no resuelve un problema si la expresión de problema sigue siendo VERDADERA!
La temperatura en la sala de servidores es demasiado alta.
Expresión de problema:
Expresión de recuperación:
El espacio libre en disco es demasiado bajo.
Expresión de problema: es menor que 10GB durante los últimos 5 minutos
Expresión de recuperación: es mayor que 40GB durante los últimos 10 minutos
Generalmente, un operando desconocido (como una métrica no soportada) en la expresión hará que el valor del disparador pase inmediatamente a Desconocido
.
Sin embargo, en algunos casos se admiten operandos desconocidos (métricas no soportadas, errores de función) en la evaluación de la expresión:
nodata()
se evalúa independientemente de si la métrica referenciada es soportada o no.1 or alguna_función(métrica_no_soportada1) or alguna_función(métrica_no_soportada2) or ...
" puede evaluarse a un resultado conocido ('1' o "Problema"),0 and alguna_función(métrica_no_soportada1) and alguna_función(métrica_no_soportada2) and ...
" puede evaluarse a un resultado conocido ('0' o "OK").Desconocido
.Desconocido
y participa como operando desconocido en la evaluación posterior de la expresión.Tenga en cuenta que los operandos desconocidos pueden "desaparecer" solo en expresiones lógicas como se describe arriba. En las expresiones aritméticas, los operandos desconocidos siempre conducen al resultado Desconocido
(excepto la división por 0).
Una expresión que resulta en Desconocido
no cambia el estado del disparador ("Problema/OK"). Por lo tanto, si estaba en "Problema" (ver Caso 1), permanece en el mismo estado de problema incluso si la parte conocida se resuelve ('1' pasa a '0'), porque la expresión ahora se evalúa como Desconocido
y eso no cambia el estado del disparador.
Si una expresión de disparador con varias métricas no soportadas se evalúa como Desconocido
, el mensaje de error en el frontend se refiere a la última métrica no soportada evaluada.