Sidebar

Zabbix Summit 2022
View presentations

1 Corrélation d'événements basée sur le déclencheur

Aperçu

La corrélation d'événements basée sur des déclencheurs permet de corréler des problèmes distincts signalés par un déclencheur.

Bien qu'un événement OK puisse généralement résoudre tous les événements problématiques créés par un déclencheur, il existe des cas où une approche plus détaillée est nécessaire. Par exemple, lors de la surveillance des fichiers journaux, vous souhaiterez peut-être découvrir certains problèmes dans un fichier journal et les fermer individuellement plutôt que tous ensemble.

C'est le cas des déclencheurs pour lesquels le mode de génération des événements PROBLÈME est activé sur "Multiple". De tels déclencheurs sont normalement utilisés pour la surveillance des journaux, le traitement des traps, etc.

Il est possible dans Zabbix de relier des événements problématiques basés sur les tags d'événement. Les tags sont utilisés pour extraire des valeurs et créer une identification pour les événements problème. Profitant de cela, les problèmes peuvent également être fermés individuellement en fonction des tags correspondants.

En d'autres termes, le même déclencheur peut créer des événements distincts identifiés par le tag d'événement. Par conséquent, les événements problème peuvent être identifiés un par un et fermés séparément en fonction de l'identification par le tag d'événement.

Comment ça fonctionne

Dans la supervision des journaux, vous pouvez rencontrer des lignes similaires à celles-ci :

Line1: Application 1 stopped
       Line2: Application 2 stopped
       Line3: Application 1 was restarted
       Line4: Application 2 was restarted

L’idée de la corrélation d’événements est de pouvoir faire correspondre l’événement problématique de Line1 à la résolution de Line3 et l’événement problématique de Line2 à la résolution de Line4, et de résoudre ces problèmes un par un :

Line1: Application 1 stopped
       Line3: Application 1 was restarted #problem from Line 1 closed
       
       Line2: Application 2 stopped
       Line4: Application 2 was restarted #problem from Line 2 closed

Pour ce faire, vous devez tagger ces événements connexes, par exemple, "Application 1" et "Application 2". Cela peut être fait en appliquant une expression régulière à la ligne de journal pour extraire la valeur du tag. Ensuite, lorsque les événements sont créés, ils sont taggés respectivement "Application 1" et "Application 2" et le problème peut être corrélé à la résolution.

Configuration

Pour configurer la corrélation d'événements au niveau du déclencheur :

Tous les champs de saisie obligatoires sont marqués d'un astérisque rouge.

  • sélectionnez 'Mode de génération des événements PROBLÈME' comme // Multiple //
  • sélectionnez 'Un événement OK ferme' Tous les problèmes si les valeurs de tag correspondent
  • entrez le nom du tag pour la correspondance d'événements
  • configurez les tags pour extraire les valeurs des tags des lignes du journal

Si la configuration est réussie, vous pourrez voir les événements problématiques étiquetés par l'application et mis en correspondance avec leur résolution dans SurveillanceProblèmes.

Parce qu'une mauvaise configuration est possible, lorsque des tags d'événement similaires peuvent être créées pour des problèmes non liés, veuillez consulter les cas décrits ci-dessous !

  • Avec deux applications écrivant des messages d'erreur et de récupération dans le même fichier journal, un utilisateur peut décider d'utiliser deux tags Application dans le même déclencheur avec des valeurs de tag différentes en utilisant des expressions régulières distinctes dans les valeurs de tag pour extraire les noms de, par exemple, l'application A et l'application B de la macro {ITEM.VALUE} (par exemple, lorsque les formats de message diffèrent). Toutefois, cela risque de ne pas fonctionner comme prévu s'il n'y a pas de correspondance avec les expressions régulières. Les expressions rationnelles non correspondantes génèrent des valeurs de tags vides et une seule valeur de tag vide dans les événements problème et OK suffit pour les corréler. Un message de récupération de l'application A peut donc fermer accidentellement un message d'erreur de l'application B.
  • Les tags et les valeurs de tags ne sont visibles que lorsqu'un déclencheur est activé. Si l'expression régulière utilisée n'est pas valide, elle est remplacée silencieusement par une chaîne *INCONNUE*. Si l'événement problème initial avec une valeur de tag *INCONNUE* est manquant, des événements OK subséquents peuvent apparaître avec la même valeur de tag *INCONNUE*, ce qui peut fermer les événements problème qu'ils n'auraient pas dû fermer.
  • Si un utilisateur utilise la macro {ITEM.VALUE} sans fonctions de macro comme valeur de tag, la limite de 255 caractères s'applique. Lorsque les messages des journaux sont longs et que les 255 premiers caractères sont non spécifiques, des tags d'événement similaires peuvent également être associées à des problèmes non liés.