# استخراج النصوص من ملفات PDF مباشرةً — حل جديد من Amazon AWS
المشكلة اللي كانت تعيق المهنيين
كثير ديال المهنيين — من محامين ومحاسبين ومسؤولين على الامتثال — كانو كيعانيو من نفس المشكلة: الوثائق ديالهم مخزنة فالسيرفر، ومنين كيحتاجو معلومة بسرعة، ما كاينش طريقة تعطيهم الجواب فدار. إما كيكتبو سكريبتات خاصة، أو ينتظرو على pipeline ديال batch processing يكمل خدمتو — وهاد الانتظار ماشي دايماً ممكن.
فريق من مهندسي شركة Amazon Web Services وثّق هاد الإشكالية وخرج بحل عملي يجمع السرعة والبساطة مع بعض.
الحل: سيرفر MCP فوق Amazon S3
الحل اللي قدمو مهندسو شركة Amazon هو بناء سيرفر يستعمل بروتوكول MCP — واللي كيخلي الوصول للوثائق يصير بشكل تفاعلي ومباشر. المستخدم كيطرح سؤالو على الوثيقة، والسيرفر كيرجع الجواب فالحين، بلا ما يكون عندو حاجة لبنية تحتية معقدة.
الفكرة الأساسية بسيطة: الملفات بصيغة PDF مخزنة فخدمة Amazon S3 المعروفة، والسيرفر الجديد كيوصل ليها مباشرةً ويستخرج النص اللي فيها وقت الطلب — مو على دفعات ومو بجدولة مسبقة.
المقارنة مع Amazon Textract
مهندسو شركة Amazon ميزو بين حلين: السيرفر الجديد القائم على بروتوكول MCP، وخدمة Amazon Textract المعروفة. كل واحد منهم عندو مجاله:
**السيرفر الجديد القائم على MCP** مناسب بزاف لـ:
- ملفات PDF اللي فيها نص عادي قابل للنسخ
- بيئات التطوير والـ proof of concept
- الحالات اللي محتاجين فيها جواب سريع بإعداد خفيف
**خدمة Amazon Textract** كتبقى الخيار الأنسب لـ:
- معالجة وثائق معقدة تحتاج تقنية OCR لقراءة النصوص من صور
- استخراج بيانات من نماذج وعقود فيها layout معقدة
- تحليل البنية الكاملة للوثيقة
للمين هاد الحل؟
المقال ديال فريق شركة Amazon يعطي ثلاث حالات استخدام ملموسة: مسؤول compliance كيدور على بند محدد وقت audit، محامي محتاج شروط عقد وعميلو في انتظارو بالهاتف، ومحلل مالي محتاج أرقام من تقرير الربع الماضي قبل اجتماع كيبدا بعد عشر دقائق. فكل هاد الحالات، الانتظار مو خيار.
شنو يعني هاد الخبر للقطاع
تبني بروتوكول MCP كطبقة للوصول للوثائق يمثل توجهاً متزايداً نحو دمج الذكاء الاصطناعي مباشرةً مع البنية التحتية الموجودة بدل بناء أنظمة منفصلة. هاد النهج قادر يغير طريقة تعامل المؤسسات مع أرشيفاتها الرقمية — خصوصاً القطاعات اللي تعتمد على الوثائق القانونية والمالية بشكل يومي. التحدي اللي كيبقى هو تحديد الحدود بين حالات الاستخدام: متى نستعمل حل بسيط سريع، ومتى نحتاج قوة معالجة خدمة Amazon Textract الكاملة.
مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية