Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Belum membaca makalah lengkap, yang belum keluar, jadi tidak dapat berbicara detailnya, tetapi saya senang melihat lebih banyak ketelitian metodologis diterapkan pada LLM sebagai hakim. Peringkat LLM adalah inti dari sejumlah besar tolok ukur & sering digunakan tanpa validasi statistik yang jelas.

Kangwook Lee26 Nov, 05.56
LLM sebagai hakim telah menjadi cara dominan untuk mengevaluasi seberapa baik model dalam menyelesaikan tugas, karena bekerja tanpa set tes dan menangani kasus-kasus di mana jawabannya tidak unik.
Tetapi terlepas dari seberapa luas ini digunakan, hampir semua hasil yang dilaporkan sangat bias.
Senang membagikan pracetak kami tentang cara menggunakan LLM dengan benar sebagai juri.
🧵
===
Jadi bagaimana orang benar-benar menggunakan LLM sebagai hakim?
Kebanyakan orang hanya menggunakan LLM sebagai evaluator dan melaporkan probabilitas empiris bahwa LLM mengatakan jawabannya terlihat benar.
Ketika LLM sempurna, ini bekerja dengan baik dan memberikan estimator yang tidak bias.
Jika LLM tidak sempurna, ini rusak.
Pertimbangkan kasus di mana LLM mengevaluasi dengan benar 80 persen dari waktu.
Lebih khusus lagi, jika jawabannya benar, LLM mengatakan "ini terlihat benar" dengan probabilitas 80 persen, dan 80 persen yang sama berlaku ketika jawabannya benar-benar salah.
Dalam situasi ini, Anda tidak boleh melaporkan probabilitas empiris, karena bias. Mengapa?
Biarkan probabilitas sebenarnya dari model yang diuji benar adalah p.
Kemudian probabilitas empiris bahwa LLM mengatakan "benar" (= q) adalah
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Jadi perkiraan yang tidak bias harus
(q - 0.2) / 0.6
Segalanya menjadi lebih menarik jika pola kesalahan asimetris atau jika Anda tidak mengetahui tingkat kesalahan ini secara apriori.
===
Jadi apa artinya ini?
Pertama, ikuti pedoman yang disarankan di pracetak kami.
Tidak ada makan siang gratis. Anda tidak dapat mengevaluasi seberapa baik model Anda kecuali LLM Anda sebagai juri dikenal sempurna dalam menilainya.
Tergantung pada seberapa dekat dengan evaluator yang sempurna, Anda memerlukan ukuran set pengujian yang cukup (= set kalibrasi) untuk memperkirakan tingkat kesalahan evaluator, dan kemudian Anda harus mengoreksinya.
Kedua, sangat disayangkan, banyak temuan yang telah kita lihat dalam makalah selama beberapa tahun terakhir perlu ditinjau kembali.
Kecuali dua makalah menggunakan LLM yang sama persis sebagai hakim, membandingkan hasil di antara mereka dapat menghasilkan klaim palsu. Peningkatan bisa saja datang dari sedikit mengubah saluran evaluasi. Studi meta yang ketat sangat dibutuhkan.
===
TLDR:
(1) Hampir semua evaluasi LLM-as-a-judge dalam beberapa tahun terakhir dilaporkan dengan estimator bias.
(2) Mudah diperbaiki, jadi tunggu pracetak lengkap kami.
(3) Banyak hasil LLM-as-a-judge harus diambil dengan butiran garam.
Pracetak lengkap akan hadir dalam beberapa hari, jadi nantikan!
Pekerjaan luar biasa oleh siswa dan kolaborator saya.
@chungpa_lee @tomzeng200 @jongwonjeong123 dan @jysohn1108



27,11K
Teratas
Peringkat
Favorit









