Je n'ai pas lu l'intégralité du document, qui n'est pas encore publié, donc je ne peux pas parler des détails, mais je suis heureux de voir plus de rigueur méthodologique appliquée aux LLM en tant que juge. Les évaluations des LLM sont au cœur d'un grand nombre de benchmarks et sont souvent utilisées sans validation statistique claire.