Aller au contenu principal

Flux d'événements et pipelines d'observabilité

Les systèmes modernes génèrent d'énormes quantités de données de télémétrie : logs, métriques, traces, événements de sécurité et interactions avec les grands modèles linguistiques (LLM). Ce document explique comment les pipelines d'observabilité aident les équipes à collecter, modeler, acheminer et évaluer ces données en temps réel, et où Datadog et Galileo peuvent s'intégrer dans ce contexte.

Pourquoi les pipelines d'observabilité sont-ils importants ?

Les données de télémétrie brutes sont coûteuses, bruitées et structurées de manière incohérente. Les pipelines d'observabilité s'intercalent entre vos applications et vos outils de surveillance pour résoudre ce problème en :

  • Réduisant les coûts en filtrant ou en échantillonnant les journaux à haut volume avant qu’ils n’atteignent des outils de stockage coûteux ou de gestion des informations et des événements de sécurité (SIEM).
  • Améliorant la qualité des données grâce à l’analyse syntaxique, à la normalisation et à l’enrichissement des métadonnées.
  • Protégeant la confidentialité en masquant ou en supprimant les informations personnelles identifiables (PII) dès le début du pipeline.
  • Mettant en évidence des signaux de qualité en capturant et en évaluant les interactions avec les LLM parallèlement à la télémétrie opérationnelle.

Toutes les équipes d’ingénierie, d’ingénierie de fiabilité des sites (SRE) et d’IA bénéficient de données plus rapides, plus propres et plus exploitables.

Les deux couches de l’observabilité moderne

Dans une pile qui inclut à la fois des services cloud traditionnels et des fonctionnalités basées sur les LLM, vous avez affaire à deux couches de télémétrie distinctes, chacune nécessitant des outils différents.

Télémétrie opérationnelle avec Datadog

Datadog gère la couche infrastructure et applications : ingestion des logs, collecte des métriques, alertes et routage des pipelines. Ici, vous pouvez envoyer un log d’erreur payment-gateway, appliquer un analyseur Grok pour extraire transaction_id, et acheminer les événements status:error vers une alerte Slack ou une archive S3.

Le produit Log Management de Datadog comprend des Observability Pipelines pour le traitement et le routage des données de logs à grande échelle, ainsi que Log Explorer pour la recherche en temps réel et Live Tail.

Télémétrie des modèles avec Galileo

Galileo gère la couche LLM : traçage des appels de modèles individuels, capture des entrées et des sorties, mesure de la latence par span et notation des réponses à l’aide de métriques d’évaluation. Vous pouvez ainsi déterminer si votre fonction LLM payment-query renvoie des réponses précises, fondées et suffisamment concises, et si cela varie d’un déploiement à l’autre.

Galileo est une plateforme d’évaluation et d’observabilité conçue pour aider les développeurs et les ingénieurs en IA à améliorer leurs applications d’IA. Elle prend en charge les SDK Python et TypeScript et s’intègre aux principaux fournisseurs de LLM.

Ces deux couches ne sont pas redondantes, elles sont complémentaires. Datadog vous indique *qu'*un problème s'est produit ; Galileo vous explique pourquoi la qualité de réponse de votre modèle s'est dégradée.

Architecture générale du pipeline

Schéma de l'architecture du pipeline

Concepts relatifs aux flux d'événements

Un flux d'événements est un flux continu et ordonné chronologiquement de données de télémétrie. Dans une pile d'applications moderne, les flux d'événements proviennent simultanément de plusieurs sources :

  • Journaux d'application (par exemple, événements d'erreur de la passerelle de paiement)
  • Métriques d'infrastructure (CPU, mémoire, latence)
  • Tranches de traçage distribué (données de surveillance des performances des applications (APM))
  • Journaux d’audit de sécurité et d’authentification
  • Enregistrements d’appels LLM : invites, complétions, latence et nombre de jetons
  • Événements de conteneurs et de Kubernetes
  • Télémétrie des appareils IoT

L’enregistrement d’appel LLM est le dernier ajout à cette liste. À mesure que de plus en plus d’applications intègrent des fonctionnalités d’IA, la capture et l’évaluation de ces interactions sont devenues aussi importantes que la capture des journaux d’application traditionnels.

Composants principaux du pipeline

1. Couche d'ingestion

La couche d'ingestion est le point d'entrée des données de télémétrie brutes dans le système.

Pour les données opérationnelles, cela implique d'envoyer des charges utiles JSON à l'API d'ingestion de logs Datadog à l'adresse https://http-intake.logs.datadoghq.com/api/v2/logs, authentifiées à l'aide d'un en-tête DD-API-KEY.

Pour les données LLM, cela implique d’instrumenter le code de votre application à l’aide du SDK Galileo, qui capture automatiquement les traces lorsque vous encapsulez des fonctions avec le décorateur @log ou GalileoLogger.

Ces deux voies gèrent l’authentification, la validation et la mise en mémoire tampon via différents mécanismes adaptés à leurs types de données.

2. Couche de traitement

Une fois que les données entrent dans le pipeline de Datadog, les processeurs les transforment avant de les acheminer :

  • Scanner de données sensibles : détecte et masque les informations personnelles identifiables (PII) telles que les adresses e-mail, les numéros de carte de crédit ou les identifiants client avant que les données n’atteignent les outils en aval.
  • Analyseur Grok : extrait les champs structurés des chaînes de journaux brutes.
  • Remappeur : élève les attributs imbriqués (par exemple, meta.customer_id) au rang de facettes de premier niveau pour faciliter le filtrage.
  • Processeur de recherche : enrichit les logs avec des données de référence externes, par exemple en mettant en correspondance les noms de service avec les balises team_owner.

Dans Galileo, la couche équivalente utilise la configuration des métriques au niveau du flux de logs. Les évaluateurs Luna-2 notent automatiquement les réponses du LLM en fonction de leur exactitude, de leur pertinence et de leur ton au fur et à mesure que vous les consignez.

3. Couche de routage

La couche de routage détermine la destination des événements traités en fonction du contenu, des règles métier ou des exigences de conformité. Dans Datadog, vous configurez le routage via les pipelines de logs et les index :

  • Acheminez les logs status:error simultanément vers une alerte de garde et une archive S3.
  • Appliquez une règle d’échantillonnage pour réduire le volume de logs status:info arrivant dans votre index.
  • Transférez les événements liés à la sécurité vers une intégration SIEM.
  • Utilisez la fonctionnalité Transfert de logs pour envoyer des sous-ensembles spécifiques de logs vers des points de terminaison HTTP externes.

Dans Galileo, vous gérez le routage au niveau du projet et du flux de logs en structurant vos données par projet et par flux de logs. Cette approche vous permet d’évaluer et de comparer les traces dev, staging et production.

4. Couche de destination

Où aboutissent vos événements traités :

Type de destinationExemples
Stockage d'objetsS3, Google Cloud Platform (GCP), Azure Blob
SIEMSplunk, Chronicle, QRadar
Recherche et analyseElastic, OpenSearch, Snowflake
Surveillance et alertesDatadog Log Explorer, tableaux de bord, moniteurs
Évaluation IAFlux de logs Galileo, résultats d’expériences

Plus votre routage est clair et ciblé, moins vos destinations sont coûteuses et plus elles fonctionnent rapidement. L’envoi de logs bruts et non traités vers un SIEM est l’une des sources les plus courantes de coûts d’observabilité inutiles.

Cas d’utilisation courants

Télémétrie opérationnelle avec Datadog

  • Alertes d'erreur : acheminez les logs status:error provenant de payment-gateway vers PagerDuty ou Slack en temps réel.
  • Réduction des coûts : appliquez une règle d'échantillonnage de 10 % aux logs status:info avant l'indexation.
  • Analyses de sécurité : transférez les échecs d'authentification et les logs d'audit vers un SIEM.
  • Normalisation des données : utilisez un analyseur Grok pour standardiser les formats de journaux entre des services écrits dans différents langages.

Signaux de qualité avec Galileo

  • Traçage LLM : capturez chaque invite et chaque résultat de vos fonctionnalités d'IA, organisés par session et par trace.
  • Évaluation des réponses : appliquez les métriques Luna-2 pour noter automatiquement les résultats des modèles en termes de qualité, d'exactitude et de pertinence.
  • Expérimentation des invites : Testez les modifications d'invite en A/B dans Galileo Experiments avant de les déployer dans votre flux de journaux « production ».
  • Comparaison entre environnements : Comparez le comportement des modèles en « staging » et en « production » à l'aide des mêmes critères d'évaluation.

Points clés à retenir

  • Les applications modernes produisent deux flux de télémétrie distincts : les journaux opérationnels et les enregistrements d'interaction LLM.
  • Datadog gère l’ingestion, le traitement et le routage opérationnels grâce à un modèle basé sur des pipelines conçu pour les données d’infrastructure à haut débit.
  • Galileo gère la télémétrie IA : traçage instrumenté par SDK et évaluation basée sur des métriques pour les fonctionnalités alimentées par les LLM.
  • Le traitement nettoie et enrichit les données ; le routage les achemine avec précision ; les destinations les exploitent efficacement.
  • Un pipeline bien conçu réduit les coûts, améliore la fiabilité et met en évidence les signaux de qualité de l’infrastructure et de l’IA au sein d’une seule stratégie d’observabilité.

Étapes suivantes