Bu makale beni 🤯 şoke etti X'teki herkes "LLM-yargıç olarak" diye övünüyor, sanki bu sihirli bir gerçek kahiniymiş gibi. Ama bu makale çılgınca bir şey gösteriyor: Gördüğünüz çoğu LLM değerlendirmesi, modellerin kötü olmasından değil, yargıçın kendisinin skoru sessizce yanlış yansıtmasından kaynaklanan tasarım taraflılığıdır. İşte çılgın kısım: Bir yargıç yanlış cevapları yakalamakta biraz kötüyse (düşük spesifiklik), bu doğruluğu şişirir. Doğru cevapları tanımakta biraz kötüyse (düşük hassasiyet), doğruluk düşer. Aynı model. Aynı çıktılar. Ama iki farklı hakim = iki farklı "doğruluk" elde edersiniz. Yazarlar matematiği gösteriyor, hata eğrilerini ve hakimin istemeden size yalan söylemeye başladığı tam noktayı gösteriyor. Bu yüzden bir çözüm kurdular: Kalibrasyon verileriyle değerlendirilen puanı gerçek puana geri ayarlayan bir eklenti tahmincisi. Ayrıca, hem değerlendirme kümesi hem de kalibrasyon kümesinden gelen belirsizliği nihayet yansıtan bir güven aralığı. Beni şaşırtan şey şunlar: Kalibrasyon örneklerinin verimli şekilde nasıl dağıtılacağını bile gösteriyorlar, böylece bütçeyi boşa harcamayacaksınız, bu LLM değerlendirmesinde kimsenin bahsetmediği bir şey. ...