Belum membaca makalah lengkap, yang belum keluar, jadi tidak dapat berbicara detailnya, tetapi saya senang melihat lebih banyak ketelitian metodologis diterapkan pada LLM sebagai hakim. Peringkat LLM adalah inti dari sejumlah besar tolok ukur & sering digunakan tanpa validasi statistik yang jelas.