معايير OCR مهمة، لذا في هذه المدونة @jerryjliu0 يحلل OlmOCR-Bench، أحد أكثر معايير OCR تأثيرا في الوثائق. ملخص: إنها خطوة مهمة في الاتجاه الصحيح، لكنها لا تغطي تماما احتياجات تحليل المستندات الواقعية. 📊 يغطي OlmOCR-Bench 1400+ ملف PDF مع اختبارات نجاح ورسوب ثنائية، لكنه يركز بشكل كبير على الأوراق الأكاديمية (56٪) مع تفويت الفواتير والنماذج والبيانات المالية 🔍 اختبارات الوحدة في المعيار خشنة جدا بالنسبة للجداول المعقدة وترتيب القراءة، وخلايا مدمجة مفقودة، وفهم المخططات، وبنية المستند العالمية ⚡ المطابقة الدقيقة للسلاسل في الاختبارات تخلق هشاشة حيث تؤدي الفروق الصغيرة في التنسيق إلى إخفاقات، حتى عندما يكون الاستخراج صحيحا دلاليا 🏗️ يوجد انحياز للنموذج لأن المعيار يستخدم سونيت وجيميني لتوليد حالات اختبار، مما يمنح مزايا للنماذج المدربة على مخرجات متشابهة تظهر اختباراتنا الأولية أن LlamaParse يتألق في التفكير البصري العميق مقارنة بالأشكال والمخططات والوثائق التجارية المعقدة. اقرأ تحليلنا لجيري لتحديات مقارنة الوثائق الضميرية وكيف يجب أن تبدو تقييمات تحليل المستندات من الجيل القادم: