2 Expresión de iniciador

Visión general

Las expresiones utilizadas en triggers son muy flexible. Puede usarlos para crear pruebas lógicas complejas con respecto a estadísticas monitoreadas.

Una expresión simple usa una función que se aplica al elemento con algunos parámetros. La función devuelve un resultado que se compara con el umbral, utilizando un operador y una constante.

La sintaxis de una expresión útil simple es función(/host/clave,parámetro)<operador><constante>.

Por ejemplo:

  min(/servidor Zabbix/net.if.in[eth0,bytes],5m)>100K

se activará si el número de bytes recibidos durante los últimos cinco minutos siempre superaba los 100 kilobytes.

Si bien la sintaxis es exactamente la misma, desde el punto de vista funcional hay dos tipos de expresiones desencadenantes:

  • expresión del problema - define las condiciones del problema
  • expresión de recuperación (opcional) - define condiciones adicionales de la resolución del problema

Al definir una expresión de problema sola, se utilizará esta expresión tanto como el umbral del problema como el umbral de recuperación del problema. Como tan pronto como la expresión del problema se evalúa como VERDADERO, hay un problema. Como tan pronto como la expresión del problema se evalúa como FALSO, el problema es resuelto.

Al definir tanto la expresión del problema como la recuperación suplementaria expresión, la resolución de problemas se vuelve más compleja: no sólo la la expresión del problema tiene que ser FALSA, pero también la expresión de recuperación tiene a decir verdad. Esto es útil para crear histéresis y evitar aleteo del gatillo.

Funciones

Las funciones permiten calcular los valores recogidos (promedio, mínimo, máximo, suma), buscar cadenas, hacer referencia a la hora actual y otros factores.

Se incluye una lista completa de funciones admitidas. disponible.

Por lo general, las funciones devuelven valores numéricos para comparar. al regresar cadenas, la comparación es posible con = y <> operadores (ver ejemplo).

Parámetros de la función

Los parámetros de función permiten especificar:

  • clave de host y elemento (funciones que hacen referencia únicamente al historial del elemento del host)
  • parámetros específicos de la función
  • otras expresiones (no disponible para funciones que hacen referencia al host) historial de elementos, consulte otras expresiones para ejemplos)

La clave del host y del elemento se puede especificar como /host/key. el referenciado el elemento debe estar en un estado compatible (excepto para la función nodata(), que también se calcula para artículos no admitidos).

Mientras que otras expresiones de activación como parámetros de función se limitan a funciones no históricas en disparadores, esta limitación no se aplica en elementos calculados.

Parámetros específicos de la función

Los parámetros específicos de la función se colocan después de la clave de la métrica y se separan de la clave de la métrica por una coma. Ver las funciones compatibles para obtener una lista completa de estos parámetros.

La mayoría de funciones numéricas aceptan el tiempo como parámetro. Puede utilizar segundos o sufijos de tiempo para indicar la hora. Precedido por una almohadilla, el parámetro tiene un significado diferente:

Expresión Descripción
sum(/host/key,10m) Suma de valores en los últimos 10 minutos.
sum(/host/key,#10) Suma de los últimos diez valores.

Los parámetros con una almohadilla tienen un significado diferente con la función último: denotan el enésimo valor anterior, por lo que dados los valores 3, 7, 2, 6, 5 (del más reciente al menos reciente):

  • last(/host/key,#2) devolvería '7'
  • last(/host/key,#5) devolvería '5'
Desplazamiento de hora

Se admite un desplazamiento de hora opcional con recuento de tiempo o valor como parámetro de función. Este parámetro permite referenciar datos de un período de tiempo en el pasado.

El desplazamiento de hora comienza con "now", especificando la hora actual, y es seguido de +N<unidad de tiempo> o -N<unidad de tiempo> - para sumar o restar N unidades de tiempo.

Por ejemplo, avg(/host/key,1h:now-1d) devolverá el valor promedio durante una hora hace un día.

El desplazamiento de hora especificado en meses (M) y años (y) solo se admite para funciones de tendencia. Otras funciones admiten segundos (s), minutos (m), horas (h), días (d) y semanas (w).

Desplazamiento de tiempo con períodos de tiempo absolutos

Se admiten períodos de tiempo absolutos en el parámetro de desplazamiento de hora, por ejemplo, medianoche a medianoche por un día, de lunes a domingo por una semana, del primer al último día del mes por un mes.

El desplazamiento de tiempo para períodos de tiempo absolutos comienza con "now", especificando la hora actual, y va seguido de cualquier número de operaciones de tiempo: /<unidad de tiempo> - define el principio y el final de la unidad de tiempo, por ejemplo, de medianoche a medianoche para un día, +N<unidad de tiempo> o -N<unidad de tiempo> - para sumar o restar N unidades de tiempo.

Tenga en cuenta que el valor del desplazamiento de tiempo puede ser mayor o igual a 0, mientras que el valor mínimo del período de tiempo es 1.

Parámetro Descripción
1d:now/d Ayer
1d:now/d+1d Hoy
2d:now/d+1d Últimos 2 días
1w:now/s La semana pasada
1w:now/s+1s Esta semana
Otras expresiones

Los parámetros de función pueden contener otras expresiones, como en la siguiente sintaxis:

min(min(/host/clave,1h),min(/host2/key2,1h)*10)

Tenga en cuenta que no se pueden usar otras expresiones, si la función hace referencia a historial de artículos. Por ejemplo, la siguiente sintaxis no está permitida:

min(/host/clave,#5*10)

Operadores

Los siguientes operadores son compatibles con los iniciadores (en orden descendente por prioridad de ejecución):

Prioridad Operador Definición Notas para valores desconocidos Forzar que el operando de conversión flote 1
1 - Unario menos -Desconocido → Desconocido
2 not NO lógico no Desconocido → Desconocido
3 * Multiplicación 0 * Desconocido → Desconocido
(sí, Desconocido, no 0 - para no perder
Desconocido en operaciones aritméticas)<br >1.2 * Desconocido → Desconocido
/ División Desconocido / 0 → error
Desconocido / 1.2 → Desconocido
0.0 / Desconocido → Desconocido
4 + Aritmética más 1.2 + Desconocido → Desconocido
- Aritmética menos 1.2 - Desconocido → Desconocido
5 < Menos de. El operador se define como:

A<B ⇔ (A<B-0.000001)
1.2 < Desconocido → Desconocido
<= Menor o igual que. El operador se define como:

A<=B ⇔ (A≤B+0.000001)
Desconocido <= Desconocido → Desconocido
> Más que. El operador se define como:

A>B ⇔ (A>B+0.000001)
>= Mayor o igual a. El operador se define como:

A>=B ⇔ (A≥B-0.000001)
6 = Es igual. El operador se define como:

A=B ⇔ (A≥B-0.000001) y (A≤B+0.000001)
No 1
<> No iguales. El operador se define como:

A<>B ⇔ (A<B-0.000001) o (A>B+0.000001)
No 1
7 and Y lógico 0 y Desconocido → 0
1 y Desconocido → Desconocido
Desconocido y Desconocido → Desconocido
8 or Lógico O 1 o Desconocido → 1
0 o Desconocido → Desconocido
Desconocido o Desconocido → Desconocido

1 El operando de cadena todavía se convierte en numérico si:

  • otro operando es numérico
  • se utiliza un operador distinto de = o <> en un operando

(Si la conversión falla, el operando numérico se convierte en un operando de cadena y ambos operandos se comparan como cadenas).

Los operadores not, and y or distinguen entre mayúsculas y minúsculas y deben estar en minúscula. También deben estar rodeados de espacios o paréntesis.

Todos los operadores, excepto unario - y not, tienen operación de asociatividad de izquierda a derecha. Unario - y not no son asociativos (es decir -(-1) y not (not 1) deben usarse en lugar de --1 y not not 1).

Resultado de la evaluación:

  • <, <=, >, >=, =, <> Los operadores producirán '1' en la expresión de activación si el valor especificado la relación es verdadera y '0' si es falsa. Si al menos un operando es Desconocido el resultado es Desconocido;
  • and para operandos conocidos producirá '1' si ambos operandos comparar desigual con '0'; en caso contrario, da '0'; por desconocido operandos y produce '0' solo si un operando se compara igual a '0'; de lo contrario, arroja 'Desconocido';
  • or para operandos conocidos producirá '1' si cualquiera de sus operandos comparar desigual con '0'; en caso contrario, da '0'; por desconocido operandos o produce '1' solo si un operando no es igual a '0'; de lo contrario, arroja 'Desconocido';
  • El resultado del operador de negación lógica not para un valor conocido el operando es '0' si el valor de su operando no es igual a '0'; '1' si el valor de su operando se compara con '0'. Para desconocido El operando not produce 'Desconocido'.

Almacenamiento en caché de valores

Los valores requeridos para la evaluación del disparador son almacenados en caché por el servidor Zabbix. Debido a este disparador, la evaluación provoca una mayor carga de la base de datos para algún tiempo después de que el servidor se reinicia. La caché de valores no se borra cuando los valores del historial del artículo se eliminan (ya sea manualmente o por el ama de llaves), por lo que el servidor usará los valores almacenados en caché hasta que sean más antiguos que el tiempo períodos definidos en las funciones de activación o el servidor se reinicia.

Ejemplos de disparadores

Ejemplo 1

La carga del procesador es demasiado alta en el servidor Zabbix.

último(/Servidor Zabbix/sistema.cpu.cargar[todos,avg1])>5

Al usar la función 'last()', estamos haciendo referencia a la más reciente valor. /Zabbix server/system.cpu.load[all,avg1] da un nombre corto de el parámetro monitoreado. Especifica que el host es 'servidor Zabbix' y la clave que se supervisa es 'system.cpu.load[all,avg1]'. Finalmente, >5 significa que el gatillo está en el estado PROBLEMA siempre que sea más La medición reciente de la carga del procesador del servidor Zabbix es superior a 5.

Ejemplo 2

www.example.com está sobrecargado.

last(/www.example.com/system.cpu.load[all,avg1])>5 o min(/www.example.com/system.cpu.load[all,avg1],10m)>2

La expresión es verdadera cuando la carga actual del procesador es más de 5 o la carga del procesador fue superior a 2 durante los últimos 10 minutos.

Ejemplo 3

/etc/passwd ha sido cambiado.

last(/www.example.com/vfs.file.cksum[/etc/passwd],#1)<>last(/www.example.com/vfs.file.cksum[/etc/passwd],#2)

La expresión es verdadera cuando el valor anterior del checksum de /etc/passwd difiere del más reciente.

Expresiones similares podrían ser útiles para monitorear cambios en archivos importantes, como /etc/passwd, /etc/inetd.conf, /kernel, etc.

Ejemplo 4

Alguien está descargando un archivo grande de Internet.

Uso de la función min:

min(/www.ejemplo.com/net.if.in[eth0,bytes],5m)>100K

La expresión es verdadera cuando el número de bytes recibidos en eth0 es mayor de 100 KB en los últimos 5 minutos.

Ejemplo 5

Ambos nodos del servidor SMTP en clúster están inactivos.

Tenga en cuenta el uso de dos hosts diferentes en una expresión:

último(/smtp1.ejemplo.com/net.tcp.servicio[smtp])=0 y último(/smtp2.ejemplo.com/net.tcp.servicio[smtp])=0

La expresión es verdadera cuando ambos servidores SMTP están inactivos en ambos smtp1.ejemplo.com y smtp2.ejemplo.com.

Ejemplo 6

El agente de Zabbix debe actualizarse.

Uso de la función buscar():

find(/ejemplo.ejemplo.com/agente.version,"me gusta","beta8")=1

La expresión es verdadera si el agente Zabbix tiene la versión beta8.

Ejemplo 7

El servidor es inalcanzable.

cuenta(/ejemplo.ejemplo.com/icmpping,30m,,"0")>5

La expresión es verdadera si el host "example.example.com" es inalcanzable más de 5 veces en los últimos 30 minutos.

Ejemplo 8

No hay latidos en los últimos 3 minutos.

Uso de la función nodata():

nodata(/ejemplo.ejemplo.com/tick,3m)=1

Para hacer uso de este activador, 'tick' debe definirse como un Zabbix trampero elemento. El anfitrión debe envíe periódicamente datos para este artículo usando zabbix_sender. Si no hay datos recibido dentro de los 180 segundos, el valor de activación se convierte en PROBLEMA.

Tenga en cuenta que 'nodata' se puede utilizar para cualquier tipo de elemento.

Ejemplo 9

Actividad de la CPU durante la noche.

Uso de la función time():

min(/Zabbix server/system.cpu.load[all,avg1],5m)>2 and time()<060000

El iniciador puede cambiar su estado a problema solo durante la noche (00:00 - 06:00).

Ejemplo 10

Actividad de la CPU en cualquier momento con excepción.

Uso de la función time() y operador not:

min(/zabbix/system.cpu.load[all,avg1],5m)>2
       and not (dayofweek()=7 and time()>230000)
       and not (dayofweek()=1 and time()<010000)

El iniciador puede cambiar su estado a problema en cualquier momento, excepto 2 horas en el cambio de semana (domingo, 23:00 - lunes, 01:00).

Ejemplo 11

Compruebe si la hora local del cliente está sincronizada con la hora del servidor Zabbix.

Uso de la función fuzzytime():

fuzzytime(/MySQL_DB/system.localtime,10s)=0

El iniciador cambiará al estado de problema en caso de que la hora local esté activada. El servidor MySQL_DB y el servidor Zabbix difieren en más de 10 segundos. Tenga en cuenta que 'system.localtime' debe configurarse como comprobación pasiva.

Ejemplo 12

Comparando la carga promedio actual con la carga promedio del mismo tiempo ayer (usando el cambio de tiempo como now-1d).

avg(/server/system.cpu.load,1h)/avg(/server/system.cpu.load,1h:now-1d)>2

Este iniciador se activará si la carga promedio de la última hora supera el carga promedio de la misma hora ayer más de dos veces.

Ejemplo 13

Usar el valor de otra métrica para obtener un umbral de activación:

last(/Template PfSense/hrStorageFree[{#SNMPVALUE}])<last(/Template PfSense/hrStorageSize[{#SNMPVALUE}])*0.1

El iniciador se activará si el almacenamiento gratuito cae por debajo del 10 por ciento.

Ejemplo 14

Usar resultado de la evaluación para obtener el número de iniciadores que superan un umbral:

(last(/server1/system.cpu.load[all,avg1])>5) + (last(/server2/system.cpu.load[all,avg1])>5) + (last(/server3/system.cpu.load[all,avg1])>5)>=2

El iniciador se activará si al menos dos de los iniciadores en la expresión se encuentran en un estado problemático.

Ejemplo 15

Comparar valores de cadena de dos métricas: aquí los operandos son funciones que retornan cadenas.

Problema: cree una alerta si la versión de Ubuntu es diferente en diferentes equipos

last(/NY Zabbix server/vfs.file.contents[/etc/os-release])<>last(/LA Zabbix server/vfs.file.contents[/etc/os-release])
Ejemplo 16

Comparando dos valores de cadena: los operandos son:

  • una función que devuelve una cadena
  • una combinación de macros y cadenas

Problema: detectar cambios en la consulta de DNS

La clave de la métrica es:

net.dns.record[8.8.8.8,{$WEBSITE_NAME},{$DNS_RESOURCE_RECORD_TYPE},2,1]

con macros definidas como

{$WEBSITE_NAME} = example.com
       {$DNS_RESOURCE_RECORD_TYPE} = MX

y normalmente devuelve:

example.comMX0 mail.example.com

Así que nuestra expresión de activación para detectar si el resultado de la consulta de DNS se desvió del resultado esperado es:

last(/Zabbix server/net.dns.record[8.8.8.8,{$WEBSITE_NAME},{$DNS_RESOURCE_RECORD_TYPE},2,1])<>"{$WEBSITE_NAME}{$DNS_RESOURCE_RECORD_TYPE}0 mail.{$WEBSITE_NAME}"

Observe las comillas alrededor del segundo operando.

Ejemplo 17

Comparando dos valores de cadena, los operandos son:

  • una función que devuelve una cadena
  • una cadena constante con caracteres especiales \ y "

Problema: detecta si el contenido del archivo /tmp/hello es igual a:

\" //hello ?\"

Opción 1) escribir la cadena directamente

last(/Zabbix server/vfs.file.contents[/tmp/hello])="\\\" //hello ?\\\""

Observe cómo se escapan los caracteres \ y " cuando se compara la cadena directamente.

Opción 2) usar una macro

{$HELLO_MACRO} = \" //hello ?\"

en la expresión:

last(/Zabbix server/vfs.file.contents[/tmp/hello])={$HELLO_MACRO}
Ejemplo 18

Comparación de períodos de largo plazo.

Problema: la carga del servidor Exchange aumentó más del 10% el mes pasado

trendavg(/Exchange/system.cpu.load,1M:now/M)>1.1*trendavg(/Exchange/system.cpu.load,1M:now/M-1M)

También puede usar el campo de nombre de evento en la configuración del iniciador para crear un mensaje de alerta significativo, por ejemplo para recibir algo como

"La carga del servidor Exchange aumentó un 24% en julio (0,69) en comparación con junio (0,56)"

el nombre del evento debe definirse como:

La carga del servidor {HOST.HOST} aumentó en {{?100*trendavg(//system.cpu.load,1M:now/M)/trendavg(//system.cpu.load,1M:now/M-1M)}.fmtnum(0)}% en {{TIME}.fmttime(%B,-1M)} ({{?trendavg(//system.cpu.load,1M:now/M)}.fmtnum(2)} ) en comparación con {{TIME}.fmttime(%B,-2M)} ({{?trendavg(//system.cpu.load,1M:now/M-1M)}.fmtnum(2)})

También es útil permitir el cierre manual en la configuración del iniciador para este tipo de problema.

¿Tiene un ejemplo de expresiones de iniciador que pueda ser útil para otros? Utilice el formulario de sugerencia de ejemplos para enviarlo a los desarrolladores de Zabbix.

Histéresis

A veces se necesita un intervalo entre el problema y los estados de recuperación, en lugar de un simple umbral. Por ejemplo, si queremos definir un disparador que informa un problema cuando la temperatura de la sala del servidor sube 20°C y queremos que permanezca en el estado problemático hasta que la temperatura cae por debajo de 15°C, un simple umbral de activación a 20°C no será suficiente.

En su lugar, necesitamos definir una expresión desencadenante para el evento del problema. primero (temperatura superior a 20°C). Entonces necesitamos definir un adicional condición de recuperación (temperatura por debajo de 15°C). Esto se hace definiendo un parámetro Recovery expression adicional cuando definiendo un disparador.

En este caso, la recuperación del problema se llevará a cabo en dos pasos:

  • Primero, la expresión del problema (temperatura superior a 20°C) deberá evaluar a FALSO
  • En segundo lugar, la expresión de recuperación (temperatura inferior a 15°C) tendrá para evaluar a VERDADERO

La expresión de recuperación se evaluará solo cuando el evento del problema sea resuelto primero.

::: nota de advertencia La expresión de recuperación siendo VERDADERA por sí sola no resolver un problema si la expresión del problema sigue siendo VERDADERA! :::

Ejemplo 1

La temperatura en la sala de servidores es demasiado alta.

Expresión del problema:

último(/servidor/temp)>20

Expresión de recuperación:

último(/servidor/temp)<=15
Ejemplo 2

El espacio libre en disco es demasiado bajo.

Expresión del problema: son menos de 10 GB durante los últimos 5 minutos

max(/servidor/vfs.fs.tamaño[/,gratis],5m)<10G

Expresión de recuperación: son más de 40 GB durante los últimos 10 minutos

min(/servidor/vfs.fs.tamaño[/,gratis],10m)>40G

Expresiones con operandos desconocidos

Generalmente, un operando desconocido (como una métrica no soportada) en la expresión representará inmediatamente el valor de activación como "Desconocido".

Sin embargo, en algunos casos se admiten operandos desconocidos (métricas no soportadas, errores de función) en la evaluación de expresiones:

  • La función nodata() se evalúa independientemente de si la métrica a la que se hace referencia es compatible o no.
  • Las expresiones lógicas con OR y AND se pueden evaluar con valores conocidos en dos casos independientemente de los operandos desconocidos:
    • Caso 1: "1 or some_function(unsupported_item1) or some_function(unsupported_item2) or ..." can be evaluated to known result ('1' or "Problem"),
    • Caso 2: "0 and some_function(unsupported_item1) and some_function(unsupported_item2) and ..." can be evaluated to known result ('0' or "OK").
      Zabbix intenta evaluar tales expresiones lógicas tomando métricas no soportadas como operandos desconocidos. En los dos casos anteriores se producirá un valor conocido ("Problema" u "OK", respectivamente); en todos los demás casos, el iniciador se evaluará como "Desconocido".
  • Si la evaluación de la función de una métrica soportada da como resultado un error, el valor de la función se vuelve "desconocido" y participa como operando desconocido en una evaluación adicional de la expresión.

Tenga en cuenta que los operandos desconocidos pueden "desaparecer" sólo en expresiones lógicas como las descritas arriba. En expresiones aritméticas los operandos desconocidos siempre conducen al ¡resultado "Desconocido" (excepto la división por 0).

Una expresión que da como resultado "Desconocido" no cambia el estado del iniciador ("Problema/OK"). Entonces, si fue "Problema" (ver Caso 1), permanece en el mismo estado de problema incluso si la parte conocida se resuelve ("1" se convierte en "0"), porque la expresión ahora se evalúa como "Desconocida". y eso no cambia el estado de activación.

Si una expresión de iniciador con varias métricas no soportadas se evalúa como Desconocido el mensaje de error en la interfaz se refiere a la última métrica no soportada evaluada.