Dieses Papier hat mich schockiert 🤯 Jeder auf X prahlt ständig mit „LLM-as-a-judge“, als wäre es ein magischer Wahrheitsorakel. Aber dieses Papier zeigt etwas Wahnsinniges: Die meisten LLM-Bewertungen, die du gesehen hast, sind absichtlich voreingenommen, nicht weil die Modelle schlecht sind, sondern weil der Richter selbst die Punktzahl stillschweigend falsch darstellt. Hier ist der verrückte Teil: Wenn ein Richter leicht schlecht darin ist, falsche Antworten zu erkennen (geringe Spezifität), übertreibt er die Genauigkeit. Wenn er leicht schlecht darin ist, richtige Antworten zu erkennen (geringe Sensitivität), mindert er die Genauigkeit. Dasselbe Modell. Dieselben Ausgaben. Aber du bekommst zwei verschiedene Richter = zwei verschiedene „Genauigkeiten“. Die Autoren zeigen die Mathematik, die Fehlerkurven und den genauen Punkt, an dem der Richter anfängt, dir ohne Absicht zu lügen. Also haben sie eine Lösung entwickelt: Ein Plug-in-Schätzer, der die bewertete Punktzahl mit Hilfe von Kalibrierungsdaten wieder auf die echte Punktzahl anpasst. Plus ein Konfidenzintervall, das endlich die Unsicherheit sowohl aus dem Bewertungs- als auch aus dem Kalibrierungsset widerspiegelt. Hier ist, was mich schockiert hat: Sie zeigen sogar, wie man Kalibrierungsproben effizient zuweist, damit du kein Budget verschwendest, etwas, worüber niemand in der LLM-Bewertung spricht. ...