Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bu makale beni 🤯 şoke etti
X'teki herkes "LLM-yargıç olarak" diye övünüyor, sanki bu sihirli bir gerçek kahiniymiş gibi.
Ama bu makale çılgınca bir şey gösteriyor:
Gördüğünüz çoğu LLM değerlendirmesi, modellerin kötü olmasından değil, yargıçın kendisinin skoru sessizce yanlış yansıtmasından kaynaklanan tasarım taraflılığıdır.
İşte çılgın kısım:
Bir yargıç yanlış cevapları yakalamakta biraz kötüyse (düşük spesifiklik), bu doğruluğu şişirir.
Doğru cevapları tanımakta biraz kötüyse (düşük hassasiyet), doğruluk düşer.
Aynı model. Aynı çıktılar.
Ama iki farklı hakim = iki farklı "doğruluk" elde edersiniz.
Yazarlar matematiği gösteriyor, hata eğrilerini ve hakimin istemeden size yalan söylemeye başladığı tam noktayı gösteriyor.
Bu yüzden bir çözüm kurdular:
Kalibrasyon verileriyle değerlendirilen puanı gerçek puana geri ayarlayan bir eklenti tahmincisi.
Ayrıca, hem değerlendirme kümesi hem de kalibrasyon kümesinden gelen belirsizliği nihayet yansıtan bir güven aralığı.
Beni şaşırtan şey şunlar:
Kalibrasyon örneklerinin verimli şekilde nasıl dağıtılacağını bile gösteriyorlar, böylece bütçeyi boşa harcamayacaksınız, bu LLM değerlendirmesinde kimsenin bahsetmediği bir şey.
...

En İyiler
Sıralama
Takip Listesi

