Nu am citit lucrarea completă, care încă nu a apărut, așa că nu pot vorbi despre detalii, dar mă bucur să văd că se aplică mai multă rigoare metodologică la LLM ca judecător. Ratingurile LLM sunt în centrul unui număr mare de repere și sunt adesea folosite fără o validare statistică clară.