En ole lukenut koko artikkelia, joka ei ole vielä ilmestynyt, joten en osaa sanoa yksityiskohtia, mutta olen iloinen nähdessäni, että tuomarina sovelletaan enemmän metodologista tarkkuutta. LLM-luokitukset ovat monien vertailuarvojen ytimessä ja niitä käytetään usein ilman selkeää tilastollista validointia.