Los benchmarks OCR importan, así que en este blog @jerryjliu0 analiza OlmOCR-Bench, uno de los benchmarks de OCR de documentos más influyentes. Resumen: es un paso importante en la dirección correcta, pero no cubre del todo las necesidades reales de análisis de documentos. 📊 OlmOCR-Bench cubre 1400+ PDFs con pruebas binarias de aprobado/suspenso, pero se centra mucho en trabajos académicos (56%) mientras que faltan facturas, formularios y estados financieros 🔍 Las pruebas unitarias del benchmark son demasiado gruesas para tablas complejas y el orden de lectura, faltan celdas fusionadas, comprensión de gráficos y estructura global de documentos ⚡ La coincidencia exacta de cadenas en las pruebas crea fragilidad donde pequeñas diferencias de formato provocan fallos, incluso cuando la extracción es semánticamente correcta 🏗️ Existe sesgo de modelo ya que el benchmark utiliza Sonnet y Gemini para generar casos de prueba, lo que da ventajas a modelos entrenados con salidas similares Nuestras pruebas preliminares muestran que LlamaParse destaca en el razonamiento visual profundo sobre cifras, diagramas y documentos empresariales complejos. Lee nuestro análisis de Jerry's sobre los desafíos de la comparación OCR y cómo debería ser la evaluación de análisis de documentos de próxima generación: