بحث

خطر تسريب المعلومات الخاصة عبر وكلاء البحث العميق

Miloud Belarebia · 2026-06-19

# وكلاء البحث كيسربو معلوماتك السرية — واش كاين حل؟

فعالم الذكاء الاصطناعي، ظهرت مشكلة جديدة خطيرة مرتبطة بوكلاء البحث العميق، اللي كيجمعو بين الوثائق الخاصة والأدوات الخارجية بحال web retrieval. الباحثون سموها "mosaic leakage"، وهي تسريب المعلومات السرية عبر استفسارات البحث.

شنو هو مشكل MosaicLeaks؟

تخيل شركة طبية عندها وكيل ذكاء اصطناعي كيشتغل على وثائق داخلية سرية. هاد الوكيل، وهو كيجاوب على سؤال روتيني، كيدير عدة بحثات على الإنترنت. بحثة كتذكر موعد migration للسحابة، وأخرى كتذكر تاريخ كشف أمني، وثالثة كتحدد اسم المورد المتضرر. كل بحثة لوحدها تبدو عادية — لكن اللي كيتتبع حركة المرور الصادرة يقدر يجمع الأجزاء ويعرف المعلومة الكاملة السرية.

هادا هو بالضبط ما كيسموه "mosaic effect": ما كيسربش الوكيل المعلومة دفعة وحدة، بل كيسربها على شكل أجزاء صغيرة مفرقة عبر بحثات متعددة. فالمثال الوارد فالبحث، شركة MediConn كانت عندها معلومة داخلية سرية: 70% ديال بنيتها التحتية تنقلات للسحابة بحلول يناير 2025 — وهادي المعلومة طلعت عبر استفسارات الوكيل للخارج.

كيفاش دارو الباحثون اختباراتهم؟

الباحثون بنات مهمة بحث جديدة سموها MosaicLeaks، مبنية على أسئلة متعددة الخطوات "multi-hop questions" كتمزج بين معلومات عامة ومعلومات خاصة. الهدف هو قياس وين وكيفاش كيسرب الوكيل المعلومة أثناء ما كيبحث.

النتائج كانت مقلقة: النماذج المختبرة كانت كثيراً ما تسرب المعلومات الخاصة عبر بحثاتها الخارجية. والأخطر من هاذا، أن التدريب على الأداء فقط — بمعنى تحسين دقة الإجابات فقط بلا ما يتعامل مع الخصوصية — كان كيزيد الوضع خطورة ويرفع نسبة التسريب.

واش كاين حل؟

الباحثون اقترحو طريقة تدريب جديدة سموها "Privacy-Aware Deep Research" أو اختصاراً PA-DR، مبنية على تقنية reinforcement learning مع وعي بمشكل التسريب.

النتائج الأولية مشجعة بزاف. فمستوى الأداء، ارتفعت نسبة نجاح السلاسل الكاملة "strict chain success" من 48.7% لـ 58.7%، يعني الوكيل صار يجاوب صح على كل خطوات السؤال المعقد. وفمستوى الخصوصية، تراجعت نسبة تسريب الإجابات والمعلومات الكاملة من 34.0% لـ 9.9% فقط — تحسن كبير بزاف.

شنو يعني هاد الخبر للقطاع؟

هاد البحث كيكشف عن ثغرة بنيوية فطريقة اشتغال وكلاء البحث العميق، اللي صارو يستعملوهم بزاف فالقطاعات الحساسة بحال الصحة والمال والقانون. المشكل مش فالإجابة النهائية اللي يعطيها الوكيل، بل فالطريق اللي كيمشي فيه باش يوصل لهاد الإجابة.

هاد الاكتشاف كيعني أن المؤسسات اللي تدمج وكلاء الذكاء الاصطناعي مع وثائقها الداخلية، خاصها تعيد النظر فكيفاش كتتتبع وتراقب الاستفسارات الصادرة. أما فمستوى التطوير، فالنتائج كتدل أن التدريب المستقبلي لهاد النوع من النماذج خاصو يدمج بعد الخصوصية من البداية، وماشي كإضافة لاحقة — وإلا كيبقى الخطر قائم حتى مع تحسن الأداء.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية