Jedes Mal, wenn ich einen neuen „State of the Art“-Benchmarkwert sehe, mache ich ein einfaches Gedankenexperiment. Wenn KI Geld ist, dann ist jeder Punkt Genauigkeit bei MMLU eine Gehaltsentscheidung, ein Kreditlimit, ein Handel, ein klinisches Signal. Benchmarks behandeln Modelle heute wie Schüler in der Prüfungswoche. MMLU bei 88 %, HumanEval bei welchem Prozent auch immer, Arena-Gewinnraten, aber fast niemand stellt die Frage, die zählt, wenn das Modell tatsächlich bezahlte Arbeit verrichtet. Hat dieses genaue Gehirn, in diesem genauen Zustand, diese Antwort korrekt produziert? Wir wissen bereits, was passiert, wenn man diese Ebene ignoriert. Während des Chipmangels 2021–2022 drifteten Lieferkettenmodelle, die jahrelang „gut genug“ waren, von einer Klippe. Sie empfahlen weiterhin Pläne, die keinen wirtschaftlichen Sinn ergaben, weil sich die Welt unter ihnen verändert hatte und niemand schnell genug bemerkte. Kürzlich entdeckten Claude-Nutzer Wochen lang verschlechterte Ausgaben, bevor Anthropic zugab, dass drei separate Infrastrukturfehler stillschweigend Antworten korrumpierten. Viele solcher Fälle, über die bequem (fast zu bequem) nicht gesprochen wird. Bei Ambient haben wir begonnen, dies als etwas zu behandeln, das man messen kann. Unsere eigenen Gradeschool-Mathematik-Experimente nehmen einfache Arithmetik und zeigen, wie oft Grenzmodelle bei Aufgaben wackeln, die sie als Grundanforderungen behandeln sollten. Sobald man sieht, dass einige „KI-Umsatz“-Folien unvollständig aussehen, ohne eine Geschwisterfolie: eine für verifiziertes Inferenz (das ich in einfachen Worten als die Fähigkeit definiere, nachzuweisen, welches Modell mit welchen Gewichten auf welches Prompt zu welchem Zeitpunkt geantwortet hat). Wenn KI in der Mitte von Gehaltsabrechnung, Risiko und Betrieb sitzen soll, müssen Benchmarks erwachsen werden und Genauigkeit ist das Eintrittsticket. Verifizierbares Verhalten unter wirtschaftlichen Anreizen ist die echte Prüfung.