DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Kangwook Lee

UW Madison / KRAFTON KI

LLM als Richter ist zu einer dominierenden Methode geworden, um zu bewerten, wie gut ein Modell eine Aufgabe löst, da es ohne einen Testdatensatz funktioniert und Fälle behandelt, in denen Antworten nicht eindeutig sind. Aber trotz der weit verbreiteten Nutzung sind fast alle berichteten Ergebnisse stark verzerrt. Ich freue mich, unser Preprint darüber zu teilen, wie man LLM richtig als Richter verwendet. 🧵 === Wie verwenden die Leute LLM tatsächlich als Richter? Die meisten Menschen verwenden das LLM einfach als Evaluator und berichten über die empirische Wahrscheinlichkeit, dass das LLM sagt, die Antwort sieht korrekt aus. Wenn das LLM perfekt ist, funktioniert das gut und liefert einen unverzerrten Schätzer. Wenn das LLM nicht perfekt ist, bricht das zusammen. Betrachten Sie einen Fall, in dem das LLM 80 Prozent der Zeit korrekt bewertet. Genauer gesagt, wenn die Antwort korrekt ist, sagt das LLM mit 80 Prozent Wahrscheinlichkeit: "Das sieht korrekt aus", und dieselben 80 Prozent gelten, wenn die Antwort tatsächlich inkorrekt ist. In dieser Situation sollten Sie die empirische Wahrscheinlichkeit nicht berichten, da sie verzerrt ist. Warum? Lassen Sie die wahre Wahrscheinlichkeit, dass das getestete Modell korrekt ist, p sein. Dann ist die empirische Wahrscheinlichkeit, dass das LLM "korrekt" sagt (= q), q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Der unverzerrte Schätzer sollte also sein (q - 0.2) / 0.6 Die Dinge werden noch interessanter, wenn das Fehlerverhalten asymmetrisch ist oder wenn Sie diese Fehlerquoten a priori nicht kennen. === Was bedeutet das? Zuerst folgen Sie den vorgeschlagenen Richtlinien in unserem Preprint. Es gibt kein kostenloses Mittagessen. Sie können nicht bewerten, wie gut Ihr Modell ist, es sei denn, Ihr LLM als Richter ist bekannt dafür, perfekt zu urteilen. Je nachdem, wie nah es an einem perfekten Evaluator ist, benötigen Sie eine ausreichende Größe des Testdatensatzes (= Kalibrierungsdatensatz), um die Fehlerquoten des Evaluators zu schätzen, und dann müssen Sie diese korrigieren. Zweitens müssen leider viele Ergebnisse, die wir in den letzten Jahren in Artikeln gesehen haben, überarbeitet werden. Es sei denn, zwei Artikel verwendeten genau dasselbe LLM als Richter, könnten Vergleiche zwischen ihnen falsche Behauptungen hervorgebracht haben. Die Verbesserung könnte einfach aus einer leichten Änderung der Evaluierungspipeline resultieren. Eine rigorose Metastudie ist dringend erforderlich. === tldr: (1) Fast alle LLM-als-Richter-Bewertungen in den letzten Jahren wurden mit einem verzerrten Schätzer berichtet. (2) Es ist einfach zu beheben, also warten Sie auf unser vollständiges Preprint. (3) Viele LLM-als-Richter-Ergebnisse sollten mit Vorsicht betrachtet werden. Vollständiges Preprint kommt in ein paar Tagen, also bleiben Sie dran! Fantastische Arbeit von meinen Studenten und Mitarbeitern. @chungpa_lee @tomzeng200 @jongwonjeong123 und @jysohn1108

DLLMs scheinen vielversprechend zu sein... aber parallele Generierung ist nicht immer möglich Diffusionsbasierte LLMs können viele Tokens an verschiedenen Positionen gleichzeitig generieren, während die meisten autoregressiven LLMs Tokens nacheinander generieren. Das macht diffusionsbasierte LLMs sehr attraktiv, wenn wir eine schnelle Generierung mit weniger Rechenaufwand benötigen. Eine große Frage ist … ist parallele Generierung möglich, ohne die Modellierungsgenauigkeit zu verlieren? Die Antwort ist nein. Es gibt grundlegende Grenzen dafür, wie viel Parallelität wir erreichen können. Betrachten Sie dieses Beispiel: „Wählen Sie eine Stadt gleichmäßig zufällig aus den folgenden vier Städten: New York, New Orleans, Mexiko-Stadt oder Panama-Stadt.“ Dann, P(Y₁ = New, Y₂ = York) = 1/4, P(Y₁ = New, Y₂ = Orleans) = 1/4, und so weiter. Daher ist P(Y₁ = New) = 1/2, P(Y₂ = City) = 1/2. Wenn Sie sich entscheiden, Y₁ und Y₂ parallel zu generieren, egal welchen Decodierungsalgorithmus Sie verwenden … Sie sind dazu verurteilt, „New City“ zu sampeln. Keines der heutigen DLLMs kann diese beiden Wörter korrekt generieren, ohne die Parallelität aufzugeben. ----- Warum ist das so? Tatsächlich trainieren wir LLMs nie, um die gemeinsame Verteilung über mehrere Tokens in einer Vorwärtsiteration zu lernen. Wir lehren immer eine marginale Verteilung für ein einzelnes Token, die vom Kontext abhängt. (Das gilt auch für autoregressive Modelle.) Daher ist das Sampling mehrerer Tokens auf einmal nur möglich, wenn diese Tokens gegebenenfalls unabhängig sind, basierend auf dem aktuellen Kontext. Und diese Einschränkung des parallelen Samplings kann präzise formalisiert werden. Man kann eine informationstheoretische Grenze ableiten, die decodierungsstrategieunabhängig ist, und auch strategiespezifische Grenzen ableiten. ----- Sind DLLMs also zum Scheitern verurteilt? Nein! Sie haben ein enormes Potenzial, Rechenaufwand und Zeit zu sparen. Aber: (1) wir müssen uns ihrer grundlegenden Einschränkungen bewusst sein, und (2) wir müssen bessere Trainings- und Decodierungsstrategien entwerfen. Insbesondere gibt es großen Spielraum für Verbesserungen bei der Decodierung. Warum? Idealerweise möchten wir, dass das Modell den Grad der Parallelität während der Generierung steuert. Gleichzeitig sollte es eine Teilmenge zukünftiger Tokens auswählen, die fast gegenseitig unabhängig sind, basierend auf dem aktuellen Kontext. Sind die aktuellen Decodierungsstrategien gut darin? Schwer zu sagen. Die meisten DLLMs wurden dafür nie auf die Probe gestellt. ----- Deshalb haben wir einen synthetischen Benchmark eingeführt, um DLLMs auf die Probe zu stellen. Wir nennen es ParallelBench. Die Idee ist einfach: Dies sind Aufgaben in natürlicher Sprache, aber sorgfältig so gestaltet, dass parallele Generierung von Natur aus schwierig ist. (Denken Sie an „New City“, aber an natürlichere, reale Aufgaben.) Was haben wir herausgefunden? Wir haben beliebte DLLMs mit verschiedenen Decodierungsalgorithmen getestet, und keiner kam der „Oracle“-Leistung nahe, der idealen Leistung, die Sie erhalten würden, wenn das Modell seine Parallelität während der Decodierung optimal anpassen könnte. ----- Fazit: (1) Parallele Generierung ist nicht immer möglich, und schauen Sie sich unser Papier für weitere Details an :) (2) Wenn Sie ein DLLM entwerfen können, das die Oracle-Leistung in unserem Benchmark erreicht, nun, wer weiß, vielleicht erhalten Sie einen Anruf von jemandem in Menlo Park. 😉

Top

Ranking

Favoriten