über 500 Modelle in diesem Jahr getestet, um ein AI-Produkt mit über 6.000 Nutzern zu versenden. Beobachtet: 1. Der Chat stößt an eine Grenze 2. Modellkriege setzen ältere Modelle außer Kraft 3. Open Source ist besser für Entwickler 4. Bewertungen sollten die Aufgabenausführung messen 5. Kontext ist wichtiger als verbessertes Denken