Flujos de eventos y canalizaciones de observabilidad
Los sistemas modernos generan enormes cantidades de datos de telemetría: registros, métricas, trazas, eventos de seguridad e interacciones con modelos de lenguaje de gran tamaño (LLM). Este documento explica cómo las canalizaciones de observabilidad ayudan a los equipos a recopilar, dar forma, enrutar y evaluar estos datos en tiempo real, y dónde pueden encajar Datadog y Galileo.
¿Por qué son importantes las canalizaciones de observabilidad?
Los datos de telemetría sin procesar son costosos, ruidosos y de estructura inconsistente. Las canalizaciones de observabilidad se sitúan entre sus aplicaciones y sus herramientas de monitoreo para resolver esto al:
- Reducir costes al filtrar o muestrear registros de gran volumen antes de que lleguen a un almacenamiento costoso o a herramientas de gestión de información y eventos de seguridad (SIEM).
- Mejorar la calidad de los datos mediante el análisis, la normalización y el enriquecimiento de los metadatos.
- Proteger la privacidad al enmascarar o eliminar la información de identificación personal (PII) al principio de la canalización.
- Resaltar las señales de calidad al capturar y evaluar las interacciones de LLM junto con la telemetría operativa.
Todos los equipos de ingeniería, SRE e IA se benefician de datos más rápidos, limpios y procesables.
Las dos capas de la observabilidad moderna
En una pila que incluye tanto servicios en la nube tradicionales como funciones impulsadas por LLM, se trata de dos capas de telemetría distintas, cada una de las cuales requiere herramientas diferentes.
Telemetría operativa con Datadog
Datadog se encarga de la capa de infraestructura y aplicación: ingestión de registros, recopilación de métricas, alertas y enrutamiento de canalizaciones. Aquí, puede enviar un registro de error de payment-gateway, aplicar un analizador Grok para extraer transaction_id y enrutar los eventos status:error a una alerta de Slack o a un archivo de S3.
El producto Log Management de Datadog incluye Observability Pipelines para el procesamiento y enrutamiento de datos de registros a escala, y el Log Explorer para la búsqueda en tiempo real y Live Tail.
Telemetría de modelos con Galileo
Galileo se encarga de la capa de LLM: rastreo de llamadas a modelos individuales, captura de entradas y salidas, medición de la latencia por intervalo y puntuación de las respuestas mediante métricas de evaluación. Esto le permite determinar si su función de LLM payment-query está devolviendo respuestas precisas, fundamentadas y concisas, y si eso varía entre despliegues.
Galileo es una plataforma de evaluación y observabilidad diseñada para ayudar a los desarrolladores e ingenieros de IA a mejorar sus aplicaciones de IA. Admite SDK de Python y TypeScript y se integra con los principales proveedores de LLM.
Estas dos capas no son redundantes; son complementarias. Datadog le dice que ocurrió un problema; Galileo le dice por qué la calidad de la respuesta de su modelo se degradó.
Arquitectura de alto nivel de la canalización
- Mermaid (imagen)
- Mermaid (código)
- ASCII
flowchart TD
A[Fuentes de eventos<br/>• Aplicaciones en la nube<br/>• Contenedores<br/>• Servicios LLM] --> B[Capa de ingestión]
B --> B1[API de ingesta de registros de Datadog<br/>]
B --> B2[SDK de Galileo]
B1 --> C[Capa de procesamiento<br/>• Análisis<br/>• Enriquecimiento<br/>• Enmascaramiento]
C --> D[Motor de enrutamiento<br/>• Filtros<br/>• Muestreo<br/>• Reglas]
D --> E{{Destinos operativos}}
E --> E1[Archivo S3]
E --> E2[SIEM]
E --> E3[Alertas y paneles]
B2 --> F[Galileo Log Stream<br/>• Trazas<br/>• Spans<br/>• Sesiones]
F --> G{{Evaluación de IA}}
G --> G1[Métricas y puntuación]
G --> G2[Experimentos]
[Fuentes de eventos]
• Aplicaciones en la nube • Contenedores
• Servicios LLM
|
v
[Capa de ingestión]
/ \
v v
[API de ingesta de] [SDK de Galileo]
registros Datadog |
| v
v [Galileo Log Stream]
[Capa procesamiento] • Trazas • Spans
• Análisis • Sesiones
• Enriquecimiento |
• Enmascaramiento v
| [Evaluación de IA]
v • Métricas y punt.
[Motor enrutamiento] • Experimentos
• Filtros |
• Muestreo v
• Reglas [Resultados]
|
v
[Destinos operativos]
• Archivo S3
• SIEM
• Alertas y paneles
Conceptos de flujos de eventos
Un flujo de eventos es un flujo continuo y ordenado cronológicamente de datos de telemetría. En una pila de aplicaciones moderna, los flujos de eventos provienen de múltiples fuentes simultáneamente:
- Registros de aplicaciones (por ejemplo, eventos de error de
payment-gateway) - Métricas de infraestructura (CPU, memoria, latencia)
- Intervalos de rastreo distribuido (datos de monitorización del rendimiento de aplicaciones (APM))
- Registros de auditoría de seguridad y autenticación
- Registros de llamadas LLM: indicaciones, completaciones, latencia y recuentos de tokens
- Eventos de contenedores y Kubernetes
- Telemetría de dispositivos IoT
El registro de llamadas LLM es la incorporación más reciente a esta lista. A medida que más aplicaciones integran funciones de IA, la captura y evaluación de estas interacciones se ha vuelto tan importante como la captura de los registros de aplicaciones tradicionales.
Componentes clave de la canalización
1. Capa de ingestión
La capa de ingestión es el punto de entrada de los datos de telemetría sin procesar al sistema.
Para los datos operativos, esto implica enviar cargas útiles JSON a la API de ingesta de registros de Datadog en https://http-intake.logs.datadoghq.com/api/v2/logs, autenticada mediante un encabezado DD-API-KEY.
Para los datos de LLM, esto implica instrumentar el código de su aplicación mediante el SDK de Galileo, que captura automáticamente las trazas cuando se envuelven funciones con el decorador @log o el GalileoLogger.
Ambas rutas gestionan la autenticación, la validación y el almacenamiento en búfer mediante diferentes mecanismos adaptados a sus tipos de datos.
2. Capa de procesamiento
Una vez que los datos entran en la canalización de Datadog, los procesadores los transforman antes de enrutarlos:
- Sensitive Data Scanner: detecta y enmascara la PII, como direcciones de correo electrónico, números de tarjetas de crédito o ID de clientes, antes de que los datos lleguen a las herramientas posteriores.
- Grok Parser: extrae campos estructurados de cadenas de registros sin procesar.
- Remapper: eleva los atributos anidados (por ejemplo,
meta.customer_id) a facetas de primer nivel para facilitar el filtrado. - Lookup Processor: enriquece los registros con datos de referencia externos, por ejemplo, asignando nombres de
servicea etiquetas deteam_owner.
En Galileo, la capa equivalente utiliza la configuración de métricas a nivel del flujo de registros. Los evaluadores de Luna-2 puntúan automáticamente las respuestas de LLM en función de la precisión, la relevancia y el tono a medida que se registran.
3. Capa de enrutamiento
La capa de enrutamiento determina a dónde van los eventos procesados en función del contenido, las reglas de negocio o los requisitos de cumplimiento. En Datadog, el enrutamiento se configura mediante Log Pipelines e índices:
- Enrute los registros
status:errorsimultáneamente a una alerta de guardia y a un archivo de S3. - Aplique una regla de muestreo para reducir el volumen de registros
status:infoque llegan a su índice. - Reenvíe los eventos relacionados con la seguridad a una integración de SIEM.
- Utilice la función Log Forwarding para enviar subconjuntos específicos de registros a puntos finales HTTP externos.
En Galileo, el enrutamiento se gestiona a nivel de proyecto y de flujo de registros mediante la estructuración de los datos por proyecto y flujo de registros. Esto permite evaluar y comparar las trazas de dev, staging y production.
4. Capa de destino
Donde terminan sus eventos procesados:
| Tipo de destino | Ejemplos |
|---|---|
| Almacenamiento de objetos | S3, GCP, Azure Blob |
| SIEM | Splunk, Chronicle, QRadar |
| Búsqueda y análisis | Elastic, OpenSearch, Snowflake |
| Monitoreo y alertas | Datadog Log Explorer, paneles, monitores |
| Evaluación de IA | Galileo Log Streams, resultados de experimentos |
Cuanto más claro y específico sea su enrutamiento, menos costosos y más rápidos serán sus destinos. El envío de registros sin procesar y sin procesar a un SIEM es una de las fuentes más comunes de costes de observabilidad innecesarios.
Casos de uso comunes
Telemetría operativa con Datadog
- Alertas de error: enrute los registros
status:errordepayment-gatewaya PagerDuty o Slack en tiempo real. - Reducción de costes: aplique una regla de muestreo del 10 % a los registros
status:infoantes de la indexación. - Análisis de seguridad: reenvíe los fallos de autenticación y los registros de auditoría a un SIEM.
- Normalización de datos: utilice un analizador Grok para estandarizar los formatos de registro en servicios escritos en diferentes lenguajes.
Señales de calidad con Galileo
- Rastreo de LLM: capture cada indicación y cada resultado de sus funciones de IA, organizados por sesión y traza.
- Evaluación de respuestas: aplique las métricas Luna-2 para puntuar automáticamente los resultados de los modelos en cuanto a calidad, precisión y relevancia.
- Experimentación de indicaciones: realice pruebas A/B de los cambios de indicaciones en Galileo Experiments antes de implementarlos en su flujo de registros de «producción».
- Comparación de entornos: compare el comportamiento del modelo en «staging» y «producción» utilizando los mismos criterios de evaluación.
Conclusiones principales
- Las aplicaciones modernas producen dos flujos de telemetría distintos: registros operativos y registros de interacción de LLM.
- Datadog gestiona la ingestión, el procesamiento y el enrutamiento operativos a través de un modelo basado en canalizaciones diseñado para datos de infraestructura de alto rendimiento.
- Galileo gestiona la telemetría de IA: rastreo instrumentado por SDK y evaluación basada en métricas para funciones impulsadas por LLM.
- El procesamiento limpia y enriquece los datos; el enrutamiento los dirige con precisión; los destinos los ponen a trabajar.
- Una canalización bien diseñada reduce los costes, mejora la fiabilidad y resalta las señales de calidad de la infraestructura y de la IA en una única estrategia de observabilidad.