DApp Store | Centrum Web3 pro události a hry

Populární témata

Kirill Balakhonov | Nethermind

Tvůrce nástroje AuditAgent | Produkt AI x Crypto x | Budování agentické ekonomiky

Evoluce učení s několika záběry pro moderní uvažující LLM s použitím @NethermindEth AuditAgent jako příkladu. Níže si můžete prohlédnout zajímavý graf, respektive srovnání počtu správně identifikovaných zranitelností naším produktem ve srovnání s hotovými LLM, jako jsou @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro, nebo @xai Grok-4. Samozřejmě, zřejmou součástí tohoto srovnání, které jsem ukázal již mnohokrát a není na něm nic nového, je to, že specializovaný agent téměř vždy překoná univerzální řešení. Tato situace se dá vlastně docela snadno vysvětlit tím, že všechna univerzální řešení jsou součástí našeho specializovaného řešení, i když mnohem větší přínos k výsledku pochází ze správného context managementu nebo toho, co @karpathy nedávno nazvalo "Context Engineering". Kromě toho, používání správných nástrojů a jejich výběr - univerzální model bude mít vždy problémy, protože nástrojů jsou miliardy a naučit se je všechny používat je samostatná velká dovednost, přičemž to výslovně učíme náš specializovaný model. Pak je tu použití správných znalostních bází a správných vyhledávacích algoritmů pro ně a tak dále. Takže tak či onak, děláme vše pro to, používáme všechny možné nástroje, abychom tato univerzální řešení porazili. Zajímavou nuancí, na kterou jsem chtěl upozornit, je ale to, že když se podíváte na obrázek, který jsem zveřejnil zhruba před rokem, nejlepší hotová řešení byla OpenAI nebo Anthropic modely s označením "Few-Shot Learning", zatímco nyní jsou všechna nejlepší Vanilla. A k této změně dochází postupně se vznikem uvažování jako takového v modelech a se zlepšováním jeho kvality. Závěr, který lze vyvodit je, že hotové příklady správných řešení, které od nás model dostává jako in-context learning, když jim je doslova ukážeme ve výzvě, přestanou pomáhat řešit úkol, respektive bez nich model, který umí rozumně problém vyřešit ještě lépe. To znamená, že jeho možnosti poněkud omezíme tím, že mu ukážeme několik příkladů, které jsme vybrali. Zajímavým aspektem navíc je, že modely s přístupem k internetu a automatickým výběrem tohoto nástroje také začínají překonávat vše, což znamená, že model může sám přejít na internet a formulovat pro sebe správný kontext. Ano, samozřejmě existuje riziko, že model najde správnou odpověď, ale samozřejmě pracujeme konkrétně s tímto, děláme blacklisting webů a podobně, takže se snažíme, aby do dat takový únik nedocházelo (správný benchmarking je celkově klíčový). Zajímavý je ale trend - modely se stávají chytřejšími a přebírají stále více komponent řešení samy, aniž by vývojáři museli explicitně provádět určitá nastavení v kontextu. Jaké jsou s tím vaše zkušenosti?

Top

Hodnocení

Oblíbené