Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM sebagai hakim telah menjadi cara dominan untuk mengevaluasi seberapa baik model dalam menyelesaikan tugas, karena bekerja tanpa set tes dan menangani kasus-kasus di mana jawabannya tidak unik.
Tetapi terlepas dari seberapa luas ini digunakan, hampir semua hasil yang dilaporkan sangat bias.
Senang membagikan pracetak kami tentang cara menggunakan LLM dengan benar sebagai juri.
🧵
===
Jadi bagaimana orang benar-benar menggunakan LLM sebagai hakim?
Kebanyakan orang hanya menggunakan LLM sebagai evaluator dan melaporkan probabilitas empiris bahwa LLM mengatakan jawabannya terlihat benar.
Ketika LLM sempurna, ini bekerja dengan baik dan memberikan estimator yang tidak bias.
Jika LLM tidak sempurna, ini rusak.
Pertimbangkan kasus di mana LLM mengevaluasi dengan benar 80 persen dari waktu.
Lebih khusus lagi, jika jawabannya benar, LLM mengatakan "ini terlihat benar" dengan probabilitas 80 persen, dan 80 persen yang sama berlaku ketika jawabannya benar-benar salah.
Dalam situasi ini, Anda tidak boleh melaporkan probabilitas empiris, karena bias. Mengapa?
Biarkan probabilitas sebenarnya dari model yang diuji benar adalah p.
Kemudian probabilitas empiris bahwa LLM mengatakan "benar" (= q) adalah
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Jadi perkiraan yang tidak bias harus...



Teratas
Peringkat
Favorit

