OCRベンチマークは重要です。このブログでは、@jerryjliu0が最も影響力のある文書OCRベンチマークの一つであるOlmOCR-Benchを分析します。要約すると、正しい方向への重要な一歩ですが、実際のドキュメント解析のニーズを完全にはカバーしていません。 📊 OlmOCR-Benchは1400+ PDFをカバーし、合格・不合格のバイナリテストを含みますが、請求書、書類、財務諸表が欠落しているため、学術論文(56%)に重点を置いています 🔍 ベンチマークのユニットテストは複雑な表や読書順には粗すぎ、統合セルの欠如、チャートの理解、グローバルな文書構造の欠如があります ⚡ テストにおける正確な文字列マッチングは、抽出が意味的に正しくても小さなフォーマットの違いで失敗する脆性を生み出します 🏗️ ベンチマークではSonnetとGeminiを使ってテストケースを生成するため、モデルバイアスが存在し、類似の出力で訓練されたモデルに有利をもたらします 予備テストでは、LlamaParseが図や図、複雑なビジネス文書よりも深い視覚的推論に優れていることが示されています。 私たちのJerry'sによるOCRベンチマーキングの課題分析と、次世代文書解析評価の展望をご覧ください: