Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Entwickeln mit KI-Agenten @dair_ai • Zurück: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ich teile Einblicke, wie man mit LLMs und KI-Agenten ⬇️ entwickelt
Neue Umfrage zu agentischen LLMs.
Die Umfrage umfasst drei miteinander verbundene Kategorien: Denken und Abrufen für bessere Entscheidungsfindung, handlungsorientierte Modelle für praktische Unterstützung und Multi-Agenten-Systeme für Zusammenarbeit und das Studium emergenten sozialen Verhaltens.
Wichtige Anwendungen umfassen medizinische Diagnosen, Logistik, Finanzanalysen und die Unterstützung wissenschaftlicher Forschung durch selbstreflektierende Rollenspielagenten.
Bemerkenswert ist, dass der Bericht hervorhebt, dass agentische LLMs eine Lösung für die Knappheit an Trainingsdaten bieten, indem sie während der Inferenz neue Trainingszustände generieren.
Papier:

14,13K
Google hat gerade einen großartigen Leitfaden zur effektiven Kontextgestaltung für Multi-Agenten-Systeme veröffentlicht.
Achtet darauf, AI-Entwickler! (Lesezeichen setzen)
Hier sind meine wichtigsten Erkenntnisse:
Kontextfenster sind nicht der Engpass. Kontextgestaltung ist es.
Bei komplexeren und langfristigen Problemen kann das Kontextmanagement nicht als einfaches "String-Manipulations"-Problem behandelt werden.
Der Standardansatz zur Handhabung von Kontext in Agentensystemen besteht heute darin, alles in den Prompt zu stopfen. Mehr Geschichte, mehr Tokens, mehr Verwirrung. Die meisten Teams behandeln Kontext als ein Problem der String-Verkettung.
Aber rohe Kontext-Dumps führen zu drei kritischen Fehlern:
> Kostenexplosion durch wiederholte Informationen
> Leistungsabfall durch "verloren in der Mitte"-Effekte
> Anstieg der Halluzinationsraten, wenn Agenten Aktionen im System falsch zuordnen
Das Kontextmanagement wird zu einem architektonischen Anliegen neben Speicherung und Berechnung. Das bedeutet, dass explizite Transformationen ad-hoc String-Verkettungen ersetzen. Agenten erhalten standardmäßig den minimal erforderlichen Kontext und fordern explizit zusätzliche Informationen über Werkzeuge an.
Es scheint, dass Googles Agent Development Kit wirklich tief über das Kontextmanagement nachdenkt. Es führt eine gestufte Architektur ein, die Kontext als "eine kompilierte Ansicht über ein zustandsbehaftetes System" behandelt, anstatt als eine Aktivität des Prompt-Stuffens.
Wie sieht das aus?
1) Struktur: Das gestufte Modell
Das Framework trennt Speicherung von Präsentation über vier verschiedene Ebenen:
1) Der Arbeitskontext behandelt flüchtige Ansichten pro Invocation.
2) Die Sitzung führt das dauerhafte Ereignisprotokoll, das jede Nachricht, jeden Werkzeugaufruf und jedes Steuersignal erfasst.
3) Der Speicher bietet durchsuchbares, langlebiges Wissen, das über einzelne Sitzungen hinausgeht.
4) Artefakte verwalten große Binärdaten durch versionierte Referenzen anstelle von Inline-Einbettungen.
Wie funktioniert die Kontextkompilierung tatsächlich? Sie funktioniert durch geordnete LLM-Flüsse mit expliziten Prozessoren. Ein Inhaltsprozessor führt drei Operationen aus: Auswahl filtert irrelevante Ereignisse, Transformation glättet Ereignisse in richtig gerollte Inhaltsobjekte, und Injektion schreibt formatierte Geschichte in die LLM-Anfrage.
Der Inhaltsprozessor ist im Wesentlichen die Brücke zwischen einer Sitzung und dem Arbeitskontext.
Die Architektur implementiert Präfix-Caching, indem sie den Kontext in stabile Präfixe (Anweisungen, Identität, Zusammenfassungen) und variable Suffixe (neueste Wendungen, Werkzeugausgaben) unterteilt. Darüber hinaus garantiert ein static_instruction-Primitiv Unveränderlichkeit für System-Prompts und bewahrt die Cache-Gültigkeit über Aufrufe hinweg.
2) Agentisches Management von dem, was jetzt wichtig ist
Sobald du die Struktur herausgefunden hast, wird die zentrale Herausforderung Relevanz.
Du musst herausfinden, was jetzt im aktiven Fenster gehört.
ADK beantwortet dies durch Zusammenarbeit zwischen menschlich definierten Architekturen und agentischen Entscheidungsfindungen. Ingenieure definieren, wo Daten leben und wie sie zusammengefasst werden. Agenten entscheiden dynamisch, wann sie auf spezifische Speicherblöcke oder Artefakte "zugreifen".
Für große Payloads wendet ADK ein Handle-Muster an. Eine 5MB CSV oder massive JSON-Antwort lebt im Artefakt-Speicher, nicht im Prompt. Agenten sehen standardmäßig nur leichte Referenzen. Wenn rohe Daten benötigt werden, rufen sie LoadArtifactsTool für temporäre Erweiterung auf. Sobald die Aufgabe abgeschlossen ist, wird das Artefakt entladen. Dies verwandelt die permanente Kontextsteuerung in präzisen, bedarfsgerechten Zugriff.
Für langfristiges Wissen bietet der MemoryService zwei Abrufmuster:
1) Reaktives Abrufen: Agenten erkennen Wissenslücken und suchen explizit im Korpus.
2) Proaktives Abrufen: Vorverarbeiter führen eine Ähnlichkeitssuche auf Benutzereingaben durch und injizieren relevante Snippets vor der Modellaufruf. Agenten rufen genau die Snippets ab, die für den aktuellen Schritt benötigt werden, anstatt jede Konversation, die sie je hatten, mit sich zu tragen.
All dies erinnert mich an den gestuften Ansatz zu Claude Skills, der die effiziente Nutzung von Kontext in Claude Code verbessert.
3) Multi-Agenten-Kontext
Einzelagentensysteme leiden unter Kontextüberladung. Wenn man Multi-Agenten aufbaut, verstärkt sich dieses Problem weiter, was leicht zu "Kontextexplosion" führt, wenn man mehr Unteragenten einbezieht.
Damit die Multi-Agenten-Koordination effektiv funktioniert, bietet ADK zwei Muster. Agenten-als-Werkzeuge behandelt spezialisierte Agenten als aufrufbare Einheiten, die fokussierte Prompts ohne eine ahistorische Vorgeschichte erhalten. Agent Transfer ermöglicht vollständige Kontrollübergaben, bei denen Unteragenten Sitzungsansichten erben. Der include_contents-Parameter steuert den Kontextfluss, der standardmäßig auf den vollständigen Arbeitskontext oder nur den neuen Prompt eingestellt ist.
Was verhindert Halluzinationen während der Agentenübergaben? Die Lösung ist die Konversationsübersetzung. Vorherige Assistenten-Nachrichten werden in narrative Kontexte mit Attributions-Tags umgewandelt. Werkzeugaufrufe von anderen Agenten sind explizit gekennzeichnet. Jeder Agent übernimmt die Rolle des Assistenten, ohne die Geschichte des breiteren Systems fälschlicherweise sich selbst zuzuschreiben.
Letztendlich musst du Google ADK nicht verwenden, um diese Erkenntnisse anzuwenden. Ich denke, diese könnten überall anwendbar sein, wenn man Multi-Agenten-Systeme aufbaut.
(Bild mit freundlicher Genehmigung von nano banana pro)

1,22K
// DAS ARGUMENT FÜR DIE SKALIERUNG VON UMGEBUNGEN //
Die Skalierung von Umgebungen könnte ebenso wichtig sein wie die Skalierung von Modellen für agentische KI.
Aktuelle KI-Forschung legt nahe, dass der Aufbau eines leistungsstarken agentischen KI-Modells nicht nur besseres Denken erfordert. Es geht auch um bessere Umgebungen.
Der Standardansatz zur Ausbildung fähiger KI-Agenten besteht heute darin, statische Trajektorien oder menschliche Demonstrationen zu sammeln. Dies erfordert mehr Daten, mehr Beispiele und mehr Annotierungsaufwand.
Aber statische Daten können kein dynamisches Entscheidungsfinden lehren. Modelle, die auf diese Weise trainiert werden, haben Schwierigkeiten mit der langfristigen, zielorientierten Natur realer agentischer Aufgaben.
Diese neue Forschung führt Nex-N1 ein, ein Framework, das systematisch die Vielfalt und Komplexität interaktiver Trainingsumgebungen skaliert, anstatt nur die Daten zu skalieren.
Agentenfähigkeiten entstehen aus Interaktion, nicht aus Nachahmung. Anstatt mehr Demonstrationen zu sammeln, haben sie eine Infrastruktur aufgebaut, um automatisch vielfältige Agentenarchitekturen und Arbeitsabläufe aus natürlichen Sprachspezifikationen zu generieren.
Das System hat drei Komponenten. NexAU (Agentenuniversum) bietet ein universelles Agenten-Framework, das komplexe Agentenhierarchien aus einfachen Konfigurationen generiert. NexA4A (Agent für Agent) synthetisiert automatisch vielfältige Agentenarchitekturen aus natürlicher Sprache. NexGAP überbrückt die Kluft zwischen Simulation und Realität, indem es reale MCP-Tools für die verankerte Trajektoriensynthese integriert.
Ergebnisse:
- Auf dem τ2-bench erzielt Nex-N1, das auf DeepSeek-V3.1 basiert, 80,2 und übertrifft damit den Basiswert von 42,8.
- Auf SWE-bench Verified erreicht Qwen3-32B-Nex-N1 50,5 % im Vergleich zu 12,9 % des Basismodells.
- Auf BFCL v4 für die Werkzeugnutzung übertrifft Nex-N1 (65,3) GPT-5 (61,6).
In menschlichen Bewertungen zur Entwicklung realer Projekte über 43 Codierungsszenarien gewinnt oder erzielt Nex-N1 in 64,5 % der Fälle ein Unentschieden gegen Claude Sonnet 4.5 und in ~70 % der Fälle gegen GPT-5.
Sie haben auch einen tiefen Forschungsagenten auf Nex-N1 aufgebaut, der 47,0 % im Deep Research Benchmark erreicht hat, mit Fähigkeiten zur visualisierten Berichtserstellung, einschließlich Folien und Forschungsplakaten.
Papier:

9,21K
Top
Ranking
Favoriten

