Não li o artigo completo, que ainda não foi publicado, por isso não posso falar sobre os detalhes, mas fico feliz em ver mais rigor metodológico sendo aplicado ao LLM como juiz. As classificações do LLM estão no cerne de um enorme número de benchmarks e muitas vezes são usadas sem uma validação estatística clara.