Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bouwen met AI-agents @dair_ai • Vorige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ik deel inzichten over hoe te bouwen met LLM's en AI-agents ⬇️
Nieuwe enquête over Agentic LLM's.
De enquête beslaat drie onderling verbonden categorieën: redeneren en ophalen voor betere besluitvorming, actiegerichte modellen voor praktische assistentie, en multi-agent systemen voor samenwerking en het bestuderen van opkomend sociaal gedrag.
Belangrijke toepassingen zijn onder andere medische diagnose, logistiek, financiële analyse en het aanvullen van wetenschappelijk onderzoek door middel van zelfreflecterende rollenspellen agents.
Opmerkelijk is dat het rapport benadrukt dat agentic LLM's een oplossing bieden voor de schaarste aan trainingsdata door nieuwe trainingsstaten te genereren tijdens inferentie.
Paper:

14,13K
Google heeft zojuist een geweldige gids gepubliceerd over effectieve contextengineering voor multi-agent systemen.
Let hier goed op, AI-ontwikkelaars! (bookmark het)
Hier zijn mijn belangrijkste punten:
Contextvensters zijn niet de bottleneck. Contextengineering is dat wel.
Voor complexere en langetermijnproblemen kan contextbeheer niet worden behandeld als een eenvoudig "stringmanipulatie" probleem.
De standaardaanpak voor het omgaan met context in agent systemen vandaag de dag blijft alles in de prompt stoppen. Meer geschiedenis, meer tokens, meer verwarring. De meeste teams beschouwen context als een stringconcatenatieprobleem.
Maar ruwe contextdump creëert drie kritieke mislukkingen:
> kostenexplosie door repetitieve informatie
> prestatievermindering door "verloren in het midden" effecten
> toename van hallucinatiepercentages wanneer agents acties verkeerd toeschrijven binnen een systeem
Contextbeheer wordt een architectonische zorg naast opslag en rekenkracht. Dit betekent dat expliciete transformaties ad-hoc stringconcatenatie vervangen. Agents ontvangen standaard de minimale vereiste context en vragen expliciet om aanvullende informatie via tools.
Het lijkt erop dat Google's Agent Development Kit echt diep nadenkt over contextbeheer. Het introduceert een gelaagde architectuur die context behandelt als "een gecompileerd overzicht van een stateful systeem" in plaats van een prompt-stuffing activiteit.
Hoe ziet dit eruit?
1) Structuur: Het Gelaagde Model
Het framework scheidt opslag van presentatie over vier verschillende lagen:
1) Werkcontext behandelt ephemerale per-invocation weergaven.
2) Sessie onderhoudt het duurzame evenementlogboek, dat elk bericht, toolaanroep en controlesignaal vastlegt.
3) Geheugen biedt doorzoekbare, langlevende kennis die enkele sessies overleeft.
4) Artefacten beheren grote binaire gegevens via versie-referenties in plaats van inline embedding.
Hoe werkt contextcompilatie eigenlijk? Het werkt via geordende LLM-stromen met expliciete processors. Een inhoudsprocessor voert drie bewerkingen uit: selectie filtert irrelevante gebeurtenissen, transformatie vlakt gebeurtenissen af tot goed gerolde Content-objecten, en injectie schrijft geformatteerde geschiedenis in het LLM-verzoek.
De inhoudsprocessor is in wezen de brug tussen een sessie en de werkcontext.
De architectuur implementeert prefix caching door context te verdelen in stabiele prefixes (instructies, identiteit, samenvattingen) en variabele suffixen (laatste beurten, tooloutputs). Daarbovenop garandeert een static_instruction primitive onveranderlijkheid voor systeem prompts, waardoor de cache-validiteit behouden blijft over aanroepen.
2) Agentisch Beheer van Wat Nu Belangrijk Is
Zodra je de structuur hebt uitgezocht, wordt de kernuitdaging relevantie.
Je moet uitzoeken wat nu in het actieve venster hoort.
ADK beantwoordt dit door samenwerking tussen door mensen gedefinieerde architectuur en agentische besluitvorming. Ingenieurs definiëren waar gegevens zich bevinden en hoe ze worden samengevat. Agents beslissen dynamisch wanneer ze specifieke geheugenblokken of artefacten "bereiken".
Voor grote payloads past ADK een handvatpatroon toe. Een 5MB CSV of enorme JSON-respons bevindt zich in artefactopslag, niet in de prompt. Agents zien standaard alleen lichte referenties. Wanneer ruwe gegevens nodig zijn, roepen ze LoadArtifactsTool aan voor tijdelijke uitbreiding. Zodra de taak is voltooid, wordt het artefact afgevoerd. Dit verandert permanente contextbelasting in nauwkeurige, on-demand toegang.
Voor langetermijnkennis biedt de MemoryService twee ophaalpatronen:
1) Reactieve recall: agents herkennen kennisgaten en zoeken expliciet in de corpus.
2) Proactieve recall: voorverwerkers voeren een gelijkeniszoekopdracht uit op gebruikersinvoer, waarbij relevante fragmenten worden geïnjecteerd voordat het model wordt aangeroepen. Agents herinneren zich precies de fragmenten die nodig zijn voor de huidige stap in plaats van elke conversatie die ze ooit hebben gehad mee te dragen.
Dit doet me allemaal denken aan de gelaagde aanpak van Claude Skills, die het efficiënte gebruik van context in Claude Code verbetert.
3) Multi-agent Context
Single-agent systemen lijden onder contextbloat. Bij het bouwen van multi-agents wordt dit probleem verder versterkt, wat gemakkelijk leidt tot "contextexplosie" naarmate je meer sub-agents incorporeert.
Voor effectieve multi-agent coördinatie biedt ADK twee patronen. Agents-als-tools beschouwt gespecialiseerde agents als aanroepbare entiteiten die gerichte prompts ontvangen zonder een voorouderlijke geschiedenis. Agent Transfer, dat volledige controle-overdrachten mogelijk maakt waarbij sub-agents sessieweergaven erven. De include_contents parameter controleert de contextstroom, standaard ingesteld op volledige werkcontext of alleen de nieuwe prompt.
Wat voorkomt hallucinatie tijdens agentoverdrachten? De oplossing is conversatietranslatie. Vorige Assistant-berichten worden omgezet in narratieve context met toeschrijvingslabels. Toolaanroepen van andere agents worden expliciet gemarkeerd. Elke agent neemt de rol van de Assistant aan zonder de bredere geschiedenis van het systeem aan zichzelf toe te schrijven.
Tot slot, je hoeft Google ADK niet te gebruiken om deze inzichten toe te passen. Ik denk dat deze overal van toepassing kunnen zijn bij het bouwen van multi-agent systemen.
(afbeelding met dank aan nano banana pro)

1,22K
// DE ZAAK VOOR OMGEVINGSCHALING //
Omgevingsschaling kan net zo belangrijk zijn als modelschaling voor agentische AI.
Huidig AI-onderzoek suggereert dat het bouwen van een krachtig agentisch AI-model niet alleen gaat om beter redeneren. Het gaat ook om betere omgevingen.
De standaardaanpak voor het trainen van capabele AI-agenten vandaag de dag is het verzamelen van statische trajecten of menselijke demonstraties. Dit vereist meer data, meer voorbeelden en meer annotatie-inspanning.
Maar statische data kan dynamisch besluitvorming niet onderwijzen. Modellen die op deze manier zijn getraind, hebben moeite met de lange termijn, doelgerichte aard van echte agentische taken.
Dit nieuwe onderzoek introduceert Nex-N1, een framework dat systematisch de diversiteit en complexiteit van interactieve trainingsomgevingen schaalt in plaats van alleen data te schalen.
Agentcapaciteiten ontstaan uit interactie, niet imitatie. In plaats van meer demonstraties te verzamelen, hebben ze infrastructuur gebouwd om automatisch diverse agentarchitecturen en workflows te genereren vanuit natuurlijke taalspecificaties.
Het systeem heeft drie componenten. NexAU (Agent Universe) biedt een universeel agentframework dat complexe agenthiërarchieën genereert vanuit eenvoudige configuraties. NexA4A (Agent voor Agent) synthetiseert automatisch diverse agentarchitecturen vanuit natuurlijke taal. NexGAP overbrugt de kloof tussen simulatie en realiteit door echte MCP-tools te integreren voor gegronde trajectsynthetisering.
Resultaten:
- Op de τ2-bench scoorde Nex-N1, gebouwd op DeepSeek-V3.1, 80.2, wat beter is dan de basismodelscore van 42.8.
- Op SWE-bench Verified behaalt Qwen3-32B-Nex-N1 50.5% vergeleken met de basismodelscore van 12.9%.
- Op BFCL v4 voor gereedschapsgebruik presteert Nex-N1 (65.3) beter dan GPT-5 (61.6).
In menselijke evaluaties van echte projectontwikkeling over 43 coderingsscenario's wint of gelijk speelt Nex-N1 tegen Claude Sonnet 4.5 in 64.5% van de gevallen en tegen GPT-5 in ~70% van de gevallen.
Ze hebben ook een diep onderzoeksagent gebouwd op Nex-N1, met een score van 47.0% op de Deep Research Benchmark, met mogelijkheden voor gevisualiseerde rapportgeneratie, inclusief dia's en onderzoeksaffiches.
Paper:

9,21K
Boven
Positie
Favorieten

