Navigation Bar

Logo
AnyParser Pro - Parse multi-language images and documents into JSON/markdown | Product Hunt

مضاعفة الدقة في استرجاع المعرفة من الرسوم البيانية والجداول

2024-12-28

الملفات

جرب مجانًا

المحتوى الكامل

الجداول فقط

استخراج أزواج المفتاح والقيمة

يرجى تحميل ملف.

AnyParser و Epsilla مقاييس التقييم من Ragas مقاييس التقييم من Ragas

في مشهد البيانات اليوم، تعتمد الصناعات مثل الخدمات المالية بشكل كبير على استخراج المعلومات بدقة وكفاءة من الوثائق، خاصة تلك التي تحتوي على نصوص غير منظمة وبيانات منظمة مثل الجداول والرسوم البيانية. على الرغم من الاستخدام الواسع لنماذج التعرف الضوئي على الحروف (OCR)، إلا أنها غالبًا ما تفشل في التعامل مع تنسيقات الوثائق المعقدة، مما يؤدي إلى أداء دون المستوى في التطبيقات المتقدمة للذكاء الاصطناعي. إدراكًا لهذه الفجوة، قدمت CambioML و Epsilla نظامًا متقدمًا لاسترجاع المعرفة يعد بتحسين الدقة والاسترجاع بشكل كبير في مهام استخراج البيانات.

المقدمة: التغلب على قيود OCR

تواجه نماذج OCR، على الرغم من فعاليتها في اكتشاف النصوص، صعوبة في استخراج معلومات التخطيط وسحب البيانات بدقة من الجداول والرسوم البيانية. تصبح هذه القيود واضحة بشكل خاص في الصناعات التي تتطلب الدقة، مثل المالية والرعاية الصحية. لمعالجة هذه التحديات، طورت CambioML و Epsilla نهجًا مبتكرًا يدمج نماذج استخراج الجداول المتقدمة مع تقنيات الاسترجاع المعزز بالتوليد (RAG). يحقق هذا النظام الجديد دقة تصل إلى 2x واسترجاع يصل إلى 2.5x مقارنةً بأنظمة RAG التقليدية، مما يضع معيارًا جديدًا للإجابة على أسئلة الوثائق.

AnyParser: ثورة في استخراج الجداول

في قلب هذا الاختراق يوجد AnyParser، نموذج مدعوم بنماذج اللغة البصرية المتقدمة (VLMs) التي تتفوق في استخراج المعلومات من مصادر بيانات متنوعة. على عكس النماذج التقليدية التي تعتمد بشكل كبير على OCR، يستخدم AnyParser مزيجًا من المشفرات البصرية والنصية لالتقاط أدق التفاصيل من الوثائق، مما يضمن عدم تفويت أي بيانات حيوية. هذه الطريقة مفيدة بشكل خاص في استخراج البيانات عالية الدقة من الوثائق المالية والطبية، حيث تكون الدقة أمرًا حاسمًا.

Epsilla: منصة RAG مرنة

تكمل AnyParser منصة Epsilla، وهي منصة RAG-as-a-Service بدون كود مصممة لتحسين مختلف خطوط أنابيب RAG. تعزز Epsilla عملية استرجاع المعرفة من خلال تقنيات متقدمة في تقسيم البيانات، والفهرسة، وتحسين الاستعلامات. من خلال دمج طرق البحث القائمة على الكلمات الرئيسية والبحث الدلالي، تقدم Epsilla نتائج دقيقة للغاية وذات صلة سياقية، مما يجعلها حلاً مثاليًا لتطبيقات نماذج اللغة الكبيرة (LLM).

التجربة والتقييم: التأثير في العالم الحقيقي

AnyParser و Epsilla مقاييس التقييم من Ragas مقاييس التقييم من Ragas

للتحقق من فعالية AnyParser و Epsilla، تم اختبار النظام على وثائق مالية من نوع 10-K من شركات مثل Apple و Meta. كانت النتائج مثيرة للإعجاب، حيث أظهر النظام أداءً أعلى بكثير عبر جميع مقاييس التقييم الرئيسية، بما في ذلك دقة السياق، والاسترجاع، والموثوقية، وصحة الإجابات. في بعض الحالات، تفوق النظام على أنظمة RAG التقليدية بمقدار يصل إلى 2.7x، مما يبرز تفوقه في التعامل مع مهام استخراج البيانات المعقدة.

حالات الاستخدام الشائعة والفوائد الرئيسية

  • الدقة: دقة عالية في تحويل كل من البيانات المنظمة وغير المنظمة إلى صيغ قابلة للاستخدام.

  • الخصوصية: القدرة على نشر النظام داخل مركز بيانات العميل تضمن أمان البيانات بالكامل.

  • قابلية التوسع: معالجة سريعة لكميات كبيرة من الوثائق، مما يمكّن من اتخاذ قرارات أسرع.

الخاتمة: عصر جديد في استرجاع المعرفة

يمثل تقديم AnyParser و Epsilla تقدمًا كبيرًا في تكنولوجيا استرجاع المعرفة. من خلال دمج نماذج الاستخراج المتقدمة مع بنية تحتية قوية لـ RAG، لا يحسن هذا الحل المتكامل الدقة والكفاءة فحسب، بل يوفر أيضًا المرونة والخصوصية التي تتطلبها المؤسسات الحديثة. مع استمرار تطور التكنولوجيا، فإن التطبيقات والفوائد لهذا النظام واسعة وواعدة، مما يجعله مغيرًا لقواعد اللعبة للصناعات التي تعتمد على استخراج البيانات بدقة.

للحصول على الورقة البيضاء التفصيلية الكاملة، يرجى الاطلاع على هذا الرابط.

Footer