تدفقات الأحداث ومسارات قابلية المراقبة
تصدر الأنظمة الحديثة كميات هائلة من بيانات القياس عن بُعد — السجلات والمقاييس والتتبع والأحداث الأمنية وتفاعلات نماذج اللغة الكبيرة (LLM). يشرح هذا المستند كيف تساعد خطوط أنابيب القابلية للمراقبة الفرق على جمع هذه البيانات وتشكيلها وتوجيهها وتقييمها في الوقت الفعلي، وأين يمكن أن يتناسب Datadog وGalileo مع هذه الصورة.
لماذا تعتبر خطوط أنابيب القابلية للمراقبة مهمة
بيانات القياس عن بُعد الأولية مكلفة ومشوشة وغير منظمة بشكل متسق. تقع خطوط أنابيب القابلية للمراقبة بين تطبيقاتك وأدوات المراقبة الخاصة بك لحل هذه المشكلة من خلال:
- تقليل التكلفة عن طريق تصفية أو أخذ عينات من السجلات ذات الحجم الكبير قبل وصولها إلى أدوات التخزين المكلفة أو أدوات إدارة المعلومات والأحداث الأمنية (SIEM).
- تحسين جودة البيانات من خلال التحليل والتوحيد وإثراء البيانات الوصفية.
- حماية الخصوصية عن طريق إخفاء أو إزالة المعلومات الشخصية (PII) في مرحلة مبكرة من خط الأنابيب.
- إبراز إشارات الجودة من خلال التقاط تفاعلات نماذج اللغة الكبيرة (LLM) وتقييمها جنبًا إلى جنب مع القياس عن بُعد التشغيلي.
يستفيد كل فريق من فرق الهندسة وهندسة موثوقية المواقع (SRE) والذكاء الاصطناعي من بيانات أسرع وأكثر نظافة وقابلية للتنفيذ.
طبقتان من القابلية للمراقبة الحديثة
في مكدس يتضمن كلاً من الخدمات السحابية التقليدية والميزات المدعومة بنماذج اللغة الكبيرة (LLM)، تتعامل مع طبقتين متميزتين من القياس عن بُعد — تتطلب كل منهما أدوات مختلفة.
القياس عن بُعد التشغيلي مع Datadog
Datadog يتولى طبقة البنية التحتية والتطبيقات: استيعاب السجلات، وجمع المقاييس، وإرسال التنبيهات، وتوجيه مسار البيانات. هنا، يمكنك إرسال سجل خطأ payment-gateway، وتطبيق محلل Grok لاستخراج transaction_id، وتوجيه أحداث status:error إلى تنبيه Slack أو أرشيف S3.
يتضمن منتج إدارة السجلات من Datadog مسارات قابلية المراقبة لمعالجة وتوجيه بيانات السجلات على نطاق واسع، ومستكشف السجلات للبحث في الوقت الفعلي وLive Tail.
قياس أداء النماذج باستخدام Galileo
يتولى Galileo معالجة طبقة نماذج اللغة الكبيرة (LLM): تتبع استدعاءات النماذج الفردية، والتقاط المدخلات والمخرجات، وقياس زمن الوصول لكل فترة، وتقييم الاستجابات باستخدام مقاييس التقييم. هنا، يمكنك معرفة ما إذا كانت وظيفة LLM الخاصة بـ payment-query تقدم إجابات دقيقة وموثوقة وموجزة بشكل مناسب — وما إذا كان ذلك يتغير عبر عمليات النشر.
Galileo هي منصة تقييم وقابلية المراقبة مصممة لمساعدة المطورين ومهندسي الذكاء الاصطناعي على تحسين تطبيقات الذكاء الاصطناعي الخاصة بهم، مع دعم SDKs لـ Python و TypeScript والتكامل مع مزودي LLM الرئيسيين.
هاتان الطبقتان ليستا متكررتين، بل متكاملتين. يخبرك Datadog أن شيئًا ما حدث خطأً؛ بينما يخبرك Galileo لماذا انخفضت جودة استجابة نموذجك.
بنية خط الأنابيب عالية المستوى
- صورة Mermaid
- كود Mermaid
- ASCII
flowchart TD
A[مصادر الأحداث<br/>• تطبيقات سحابية<br/>• حاويات<br/>• خدمات LLM] --> B[طبقة الاستيعاب]
B --> B1[واجهة برمجة<br/>استيعاب السجلات]
B --> B2[SDK لـ Galileo]
B1 --> C[طبقة المعالجة<br/>• تحليل<br/>• إثراء<br/>• إخفاء]
C --> D[محرك التوجيه<br/>• مرشحات<br/>• معاينة<br/>• قواعد]
D --> E{{وجهات تشغيلية}}
E --> E1[أرشيف S3]
E --> E2[SIEM]
E --> E3[تنبيهات ولوحات]
B2 --> F[تدفق سجلات Galileo<br/>• تتبع<br/>• نطاقات<br/>• جلسات]
F --> G{{تقييم الذكاء الاصطناعي}}
G --> G1[مقاييس وتقييم]
G --> G2[تجارب]
[مصادر الأحداث]
• تطبيقات سحابية • حاويات
• خدمات LLM
|
v
[طبقة الاستيعاب]
/ \
v v
[واجهة برمجة] [SDK Galileo]
استيعاب سجلات |
| v
v [تدفق سجلات Galileo]
[طبقة المعالجة] • تتبع • نطاقات
• تحليل • جلسات
• إثراء |
• إخفاء v
| [تقييم ذكاء]
v • مقاييس وتقييم
[محرك التوجيه] • تجارب
• مرشحات |
• معاينة v
• قواعد [النتائج]
|
v
[الوجهات التشغيلية]
• أرشيف S3
• SIEM
• تنبيهات ولوحات
مفاهيم تدفق الأحداث
تدفق الأحداث هو تدفق مستمر ومرتب زمنياً لبيانات القياس عن بُعد. في مجموعة التطبيقات الحديثة، تأتي تدفقات الأحداث من مصادر متعددة في وقت واحد:
- سجلات التطبيق (على سبيل المثال، أحداث خطأ
payment-gateway) - مقاييس البنية التحتية (وحدة المعالجة المركزية، الذاكرة، زمن الوصول)
- فترات التتبع الموزعة (بيانات مراقبة أداء التطبيق (APM))
- سجلات تدقيق الأمان والمصادقة
- سجلات استدعاءات LLM — المطالبات، والإكمالات، وزمن الوصول، وعدد الرموز
- أحداث الحاويات و Kubernetes
- قياسات أجهزة إنترنت الأشياء
يعد سجل استدعاءات LLM أحدث إضافة إلى هذه القائمة. مع تزايد عدد التطبيقات التي تدمج ميزات الذكاء الاصطناعي، أصبح التقاط هذه التفاعلات وتقييمها أمرًا لا يقل أهمية عن التقاط سجلات التطبيقات التقليدية.
مكونات خط الأنابيب الأساسية
1. طبقة الاستيعاب
طبقة الاستيعاب هي المكان الذي تدخل فيه القياسات عن بُعد الأولية إلى النظام لأول مرة.
بالنسبة للبيانات التشغيلية، يعني هذا إرسال حمولات JSON إلى Datadog Log Ingestion API على https://http-intake.logs.datadoghq.com/api/v2/logs, المصادقة باستخدام رأس DD-API-KEY.
بالنسبة لبيانات LLM، يعني هذا تجهيز كود التطبيق باستخدام Galileo SDK, الذي يلتقط التتبع تلقائيًا عند تغليف الوظائف باستخدام زخرفة @log أو GalileoLogger.
يتعامل كلا المسارين مع المصادقة والتحقق والتخزين المؤقت من خلال آليات مختلفة تناسب أنواع البيانات الخاصة بهما.
2. طبقة المعالجة
بمجرد دخول البيانات إلى خط أنابيب Datadog، تقوم المعالجات بتحويلها قبل التوجيه:
- ماسح البيانات الحساسة — يكتشف ويخفي المعلومات الشخصية المحددة للهوية (PII) مثل عناوين البريد الإلكتروني أو أرقام بطاقات الائتمان أو معرّفات العملاء قبل وصول البيانات إلى الأدوات النهائية.
- محلل Grok — يستخرج الحقول المنظمة من سلاسل السجلات الأولية.
- أداة إعادة التعيين — ترفع السمات المتداخلة (على سبيل المثال،
meta.customer_id) إلى أوجه المستوى الأعلى لتسهيل عملية التصفية. - معالج البحث — يُثري السجلات ببيانات مرجعية خارجية، مثل
ربط أسماء
serviceبعلاماتteam_owner.
في Galileo، تستخدم الطبقة المكافئة تكوين المقاييس على مستوى تدفق السجلات. تقوم أدوات التقييم في Luna-2 تلقائيًا بتقييم استجابات LLM من حيث الصحة والواقعية والنبرة أثناء تسجيلها.
3. طبقة التوجيه
تحدد طبقة التوجيه وجهة الأحداث المعالجة بناءً على المحتوى أو قواعد العمل أو متطلبات الامتثال. في Datadog، تقوم بتكوين التوجيه من خلال خطوط أنابيب السجلات والفهارس:
- توجيه سجلات
status:errorإلى تنبيه عند الطلب وأرشيف S3 في وقت واحد. - تطبيق قاعدة أخذ العينات لتقليل حجم سجلات
status:infoالتي تصل إلى الفهرس الخاص بك. - قم بتوجيه الأحداث ذات الصلة بالأمان إلى تكامل SIEM.
- استخدم ميزة Log Forwarding لإرسال مجموعات فرعية محددة من السجلات إلى نقاط نهاية HTTP خارجية.
في Galileo، تتعامل مع التوجيه على مستوى المشروع وتدفق السجلات من خلال تنظيم بياناتك حسب المشروع وتدفق السجلات. يتيح لك هذا النهج تقييم ومقارنة مسارات dev وstaging وproduction.
4. طبقة الوجهة
أين تصل الأحداث التي تمت معالجتها:
| نوع الوجهة | أمثلة |
|---|---|
| تخزين الكائنات | S3، Google Cloud Platform (GCP)، Azure Blob |
| SIEM | Splunk، Chronicle، QRadar |
| البحث والتحليلات | Elastic، OpenSearch، Snowflake |
| المراقبة والتنبيهات | Datadog Log Explorer، لوحات المعلومات، أجهزة المراقبة |
| تقييم الذكاء الاصطناعي | تدفقات سجلات Galileo، نتائج التجارب |
كلما كان التوجيه أكثر نظافة واستهدافًا، كلما كانت الوجهات تعمل بشكل أرخص وأسرع. يعد إرسال السجلات الأولية غير المعالجة إلى SIEM أحد أكثر المصادر شيوعًا لتكاليف المراقبة غير الضرورية.
حالات الاستخدام الشائعة
القياس عن بُعد التشغيلي باستخدام Datadog
- تنبيهات الأخطاء: قم بتوجيه سجلات
status:errorمنpayment-gatewayإلى PagerDuty أو Slack في الوقت الفعلي. - تخفيض التكلفة: قم بتطبيق قاعدة أخذ عينات بنسبة 10% على سجلات
status:infoقبل الفهرسة. - تحليلات الأمان: قم بإعادة توجيه حالات فشل المصادقة وسجلات التدقيق إلى نظام SIEM.
- توحيد البيانات: استخدم محلل Grok لتوحيد تنسيقات السجلات عبر الخدمات المكتوبة بلغات مختلفة.
إشارات الجودة باستخدام Galileo
- تتبع LLM: التقط كل موجه وإكمال من ميزات الذكاء الاصطناعي الخاصة بك، مرتبة حسب الجلسة والتتبع.
- تقييم الاستجابة: قم بتطبيق مقاييس Luna-2 لتقييم مخرجات النموذج تلقائيًا من حيث الجودة والصحة والواقعية.
- تجربة المطالبات: اختبر تغييرات المطالبات بنظام A/B في Galileo Experiments قبل نشرها في دفق السجلات
الإنتاجي. - المقارنة بين البيئات: قارن سلوك النموذج في
البيئة التجريبيةمقابلالإنتاجيةباستخدام نفس معايير التقييم.
النقاط الرئيسية
- تنتج التطبيقات الحديثة دفقين مختلفين للبيانات عن بُعد: سجلات التشغيل وسجلات تفاعل LLM.
- تتولى Datadog عملية الاستيعاب التشغيلي والمعالجة والتوجيه باستخدام نموذج قائم على خط الأنابيب مصمم لبيانات البنية التحتية عالية الإنتاجية.
- تتولى Galileo القياس عن بُعد للذكاء الاصطناعي — التتبع المُجهز بواسطة SDK والتقييم القائم على المقاييس للميزات المدعومة بنماذج اللغة الكبيرة (LLM).
- تعمل المعالجة على تنظيف البيانات وإثرائها؛ ويقوم التوجيه بتوجيهها بدقة؛ وتستهلكها الوجهات بكفاءة.
- يقلل خط الأنابيب المصمم جيدًا من التكلفة، ويحسن الموثوقية، ويبرز إشارات جودة البنية التحتية والذكاء الاصطناعي في استراتيجية مراقبة واحدة.