LLM ca judecător a devenit o metodă dominantă de a evalua cât de bun este un model la rezolvarea unei sarcini, deoarece funcționează fără set de teste și gestionează cazuri în care răspunsurile nu sunt unice. Dar, în ciuda cât de larg este folosită acest lucru, aproape toate rezultatele raportate sunt extrem de părtinitoare. Sunt entuziasmat să împărtășesc preprintul nostru despre cum să folosești corect LLM ca judecător. 🧵 === Deci, cum folosesc oamenii de fapt LLM ca judecător? Majoritatea oamenilor folosesc LLM-ul ca evaluator și raportează probabilitatea empirică ca LLM-ul să spună că răspunsul pare corect. Când LLM-ul este perfect, funcționează bine și oferă un estimator nepărtinit. Dacă LLM-ul nu este perfect, aceasta se strică. Să luăm în considerare un caz în care LLM-ul evaluează corect 80% din cazuri. Mai exact, dacă răspunsul este corect, LLM-ul spune "asta pare corect" cu o probabilitate de 80%, iar aceleași 80% se aplică când răspunsul este de fapt greșit. În această situație, nu ar trebui să raportați probabilitatea empirică, deoarece este părtinitoare. De ce? Fie probabilitatea reală ca modelul testat să fie corect p. Atunci probabilitatea empirică ca LLM-ul să spună "corect" (= q) este q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Deci estimarea imparțială ar trebui să fie...