LLM jako sędzia stał się dominującym sposobem oceny, jak dobry jest model w rozwiązywaniu zadania, ponieważ działa bez zestawu testowego i radzi sobie z przypadkami, w których odpowiedzi nie są unikalne. Ale mimo że jest to szeroko stosowane, prawie wszystkie zgłoszone wyniki są silnie stronnicze. Cieszę się, że mogę podzielić się naszym preprintem na temat tego, jak prawidłowo używać LLM jako sędziego. 🧵 === Jak ludzie faktycznie używają LLM jako sędziego? Większość ludzi po prostu używa LLM jako oceniającego i zgłasza empiryczne prawdopodobieństwo, że LLM mówi, że odpowiedź wygląda poprawnie. Kiedy LLM jest doskonały, to działa dobrze i daje niestronniczego estymatora. Jeśli LLM nie jest doskonały, to się psuje. Rozważ przypadek, w którym LLM ocenia poprawnie 80 procent czasu. Mówiąc bardziej szczegółowo, jeśli odpowiedź jest poprawna, LLM mówi "to wygląda poprawnie" z 80-procentowym prawdopodobieństwem, a to samo 80 procent dotyczy, gdy odpowiedź jest faktycznie niepoprawna. W tej sytuacji nie powinieneś zgłaszać empirycznego prawdopodobieństwa, ponieważ jest ono stronnicze. Dlaczego? Niech prawdziwe prawdopodobieństwo, że testowany model jest poprawny, wynosi p. Wtedy empiryczne prawdopodobieństwo, że LLM mówi "poprawnie" (= q) wynosi q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Zatem niestronniczy szacunek powinien być...