Nie przeczytałem jeszcze całego dokumentu, który nie jest jeszcze dostępny, więc nie mogę mówić o szczegółach, ale cieszę się, że coraz więcej metodologicznej rzetelności jest stosowanej w przypadku LLM jako sędziego. Oceny LLM są w sercu ogromnej liczby benchmarków i często są używane bez wyraźnej walidacji statystycznej.