Ik heb het volledige paper nog niet gelezen, dat is nog niet uit, dus ik kan niet ingaan op de details, maar ik ben blij om te zien dat er meer methodologische strengheid wordt toegepast op LLM als rechter. LLM-beoordelingen zijn de kern van een enorm aantal benchmarks en worden vaak gebruikt zonder duidelijke statistische validatie.