Benchmark-urile OCR contează, așa că în acest blog @jerryjliu0 analizează OlmOCR-Bench, unul dintre cele mai influente benchmark-uri OCR pentru documente. Pe scurt: este un pas important în direcția corectă, dar nu acoperă pe deplin nevoile reale de analizare a documentelor. 📊 OlmOCR-Bench acoperă 1400+ PDF-uri cu teste binare de trecere și respingere, dar se concentrează foarte mult pe lucrări academice (56%), în timp ce lipsesc facturi, formulare și situații financiare 🔍 Testele unitare ale benchmark-ului sunt prea grosiere pentru tabele complexe și ordinea citirii, lipsa celulelor fuzionate, înțelegerea graficelor și structura globală a documentelor ⚡ Potrivirea exactă a șirurilor în teste creează fragilitate acolo unde diferențe mici de formatare cauzează eșecuri, chiar și atunci când extragerea este semantic corectă 🏗️ Există biasul modelului deoarece benchmark-ul folosește Sonnet și Gemini pentru a genera cazuri de testare, oferind avantaje modelelor antrenate pe ieșiri similare Testele noastre preliminare arată că LlamaParse excelează în raționamentul vizual profund peste cifre, diagrame și documente complexe de afaceri. Citește analiza noastră Jerry's despre provocările benchmarking-ului OCR și cum ar trebui să arate evaluarea analizării documentelor de nouă generație: