Weinte, SOTA ist nur Fassade, für echte Arbeit braucht man "Niu Ma Modell". Der Gründer von OpenRouter, Alex Atallah, hat gerade einen Tweet veröffentlicht, in dem er sagt, dass er am meisten mit Kimi-K2-0711 (dem Kimi-K2-Instruct aus dem Juli) arbeitet. Dann sind da noch openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3. Als ich das zuerst sah, dachte ich, ob diese Person offline war, weil sie schon lange kein neues großes Modell mehr verwendet hat? Aber wenn ich genauer darüber nachdenke, stimmt das nicht, es ist sehr merkwürdig. Das ist die wahre Nutzung eines Power Users, viel zu realistisch. Wenn man zu diesem Zeitpunkt nach einem Modell sucht, das einen ausreichend großen Kontext (128K), eine brauchbare Leistung (SWE-Bench Verified > 65), starke Agentenfähigkeiten (Tau2-bench > 65), ein riesiges Wissensspektrum (vergleichsweise große Parameteranzahl) und schnelle Antworten (kein Thinking-Modell) bietet, scheint es nur Kimi-K2-Instruct zu geben. Rückblickend sollte Alex Atallah den Großteil seiner Arbeit mit der Bearbeitung von Dokumenten (langer Kontext, insbesondere bei 13,4M Token) verbringen, Werkzeuge zur Analyse und Erstellung von Berichten verwenden (Agentenfähigkeiten), all das kann Kimi-K2-Instruct erledigen, und dann Skripte schreiben (o4 und Claude-3.7-Sonnet als Backup, sogar verpackt als Agent, um Kimi-K2 diese Modelle zum Schreiben von Skripten nutzen zu lassen). Schließlich kann Kimi-K2 auch den wichtigsten Punkt erfüllen, den Datenschutz, da das Modell offene Gewichte hat und auf eigenen Servern bereitgestellt werden kann, sodass keine sensiblen Informationen an OpenAI oder Anthropic weitergegeben werden. Sogar das GPT-OSS-120B hat wahrscheinlich auch diesen Zweck. Ich kann ungefähr verstehen, warum die neuen großen Modelle jetzt die Agentenfähigkeiten aufpeppen, denn Menschen, die AI direkt nutzen, sind nur eine Zwischenstufe; fortgeschrittene Benutzer verwenden AI bereits, um AI zu steuern. Ein spezialisiertes Modell, das alle AI-Kontexte empfängt und sendet, wird zwangsläufig das meistgenutzte sein. Ursprünglicher Beitrag: