1 Correlación de eventos basada en iniciadores

Descripción general

La correlación de eventos basada en iniciadores permite correlacionar problemas separados informados por un iniciador.

Aunque generalmente un evento OK puede cerrar todos los eventos de problema creados por un iniciador, hay casos en los que se necesita un enfoque más detallado. Por ejemplo, al monitorear archivos de registro, es posible que desee descubrir ciertos problemas en un archivo de registro y cerrarlos individualmente en lugar de todos juntos.

Este es el caso de los iniciadores que tienen el parámetro "Modo de generación del evento de problema" configurado a Múltiple. Estos iniciadores se utilizan normalmente para la monitorización de registros, procesamiento de capturas, etc.

Es posible en Zabbix relacionar eventos problemáticos basados en el etiquetado. Las etiquetas se utilizan para extraer valores y crear una identificación para eventos problemáticos. Aprovechando eso, los problemas también se pueden cerrar individualmente en función de la etiqueta coincidente.

En otras palabras, el mismo iniciador puede crear eventos separados identificados por la etiqueta del evento. Por lo tanto, los eventos de problema se pueden identificar uno por uno. y cerrado por separado en función de la identificación por la etiqueta de evento.

Cómo funciona

En el monitoreo de registros, puede encontrar líneas similares a estas:

Línea 1: Aplicación 1 detenida
       Line2: Aplicación 2 detenida
       Línea 3: se reinició la aplicación 1
       Línea 4: se reinició la aplicación 2

La idea de la correlación de eventos es poder hacer coincidir el evento del problema. de Line1 a la resolución de Line3 y el evento de problema de Line2 a la resolución de Line4, y cierre estos problemas uno por uno:

Línea 1: Aplicación 1 detenida
       Línea 3: la aplicación 1 se reinició #problema de la línea 1 cerrada
       
       Line2: Aplicación 2 detenida
       Línea 4: se reinició la aplicación 2 #problema de la línea 2 cerrada

Para hacer esto, debe etiquetar estos eventos relacionados como, por ejemplo, "Aplicación 1" y "Aplicación 2". Eso se puede hacer aplicando un expresión regular a la línea de registro para extraer el valor de la etiqueta. Entonces cuando se crean eventos, se etiquetan como "Aplicación 1" y "Aplicación 2" respectivamente y el problema puede coincidir con la resolución.

Configuración

Métrica

Para empezar, es posible que desee configurar una métrica que supervise un archivo de registro, por ejemplo:

log[/var/log/syslog]

Con la métrica configurada, espere un minuto para que se realicen los cambios de configuración definidos y luego vaya a Últimos datos para asegurarse de que la métrica haya comenzado a recopilar datos.

Iniciador

Con la métrica funcionando, debe configurar el iniciador. Es importante decidir a qué entradas en el archivo de registro vale la pena prestar atención. Por ejemplo, la siguiente expresión de iniciador buscará una cadena como 'Deteniendo' para señalar posibles problemas:

find(/Mi servidor/log[/var/log/syslog],"regexp","Deteniendo")=1

Para asegurarse de que cada línea que contiene la cadena "Deteniendo" se considera un problema, también establezca el modo de generación del evento problema en configuración del iniciador a 'Múltiple'.

Luego defina una expresión de recuperación. La siguiente expresión de recuperación resolverá todos los problemas si se encuentra una línea de registro que contiene la cadena "Iniciando":

find(/Mi servidor/log[/var/log/syslog],"regexp","Iniciando")=1

Como no queremos eso, es importante asegurarse de alguna manera de que se cierran los problemas raíz correspondientes, no solo todos los problemas. Aquí es donde el etiquetado puede ayudar.

Los problemas y las resoluciones pueden coincidir especificando una etiqueta en la configuración del iniciador. Se deben realizar los siguientes ajustes:

  • Modo de generación de eventos de problema: Múltiple
  • El evento OK se cierra: todos los problemas si los valores de las etiquetas coinciden
  • Ingrese el nombre de la etiqueta para la coincidencia de eventos

  • configure las etiquetas para extraer los valores de las etiquetas de las líneas de registro

Si se configura correctamente, podrá ver los eventos de problema etiquetados por aplicación y emparejados con su resolución en MonitoreoProblemas.

Porque es posible una mala configuración, cuando etiquetas de evento similares pueden ser creadas para problemas no relacionados, revise los casos descritos a continuación!

  • Con dos aplicaciones que escriben mensajes de error y recuperación en el mismo archivo de registro, un usuario puede decidir usar dos etiquetas Aplicación en el mismo iniciador con diferentes valores de etiqueta mediante el uso de expresiones en los valores de la etiqueta para extraer los nombres de, digamos, aplicación A y aplicación B de la macro {ITEM.VALUE} (por ej. cuando los formatos de mensaje difieren). Sin embargo, esto puede no funcionar según lo planificado si no hay ninguna coincidencia con las expresiones regulares. Las expresiones regulares que no coinciden generan valores de etiqueta vacíos y un único valor vacío de etiqueta es suficiente para correlacionar los eventos de problema y OK. Entonces, un mensaje de recuperación de la aplicación A puede cerrar accidentalmente un mensaje de error de la aplicación B.
  • Las etiquetas reales y los valores de las etiquetas solo se vuelven visibles cuando se activa un iniciador. Si la expresión regular utilizada no es válida, se reemplaza silenciosamente con una cadena *UNKNOWN*. Si falta el evento de problema inicial con un valor de etiqueta *UNKNOWN*, pueden aparecer subsecuentes eventos OK con el mismo valor de etiqueta |*UNKNOWN* que pueden cerrar eventos de problema que no deberían haber cerrado.
  • Si un usuario usa la macro {ITEM.VALUE} sin funciones de macro como valor de la etiqueta, se aplica la limitación de 255 caracteres. Cuando los mensajes de registro son largos y los primeros 255 caracteres no son específicos, esto puede también dar como resultado etiquetas de eventos similares para problemas no relacionados.