Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi: $54K/měsíc 🎙️ https://t.co/fmB6Zf5n9X: $32K/měsíc 💼 https://t.co/hNxFPvj3v1: $31K/mo 🤝 https://t.co/SqC3jTyhav: $28K/mo
.@HamelHusain o tom, proč by produktoví manažeři měli vlastnit analýzu chyb v AI produktech – nejen inženýři.
Analýza chyb. Ne automatizovaná hodnocení. Ne metrické dashboardy. Manuální, praktická analýza chyb.

Aakash Gupta15. 1. 14:51
Školí lidi v OpenAI, Anthropic, Google a Meta v AI hodnocení (@HamelHusain a @sh_reya).
Tady je jejich kompletní proces:
8:27 - Proč všichni potřebují vyšetření
15:43 - Proces analýzy chyb
32:18 - Porotci LLM
44:52 - Metriky
Všem tu uniká skutečný příběh.
Tohle není "technika podnětů". Článek se jmenuje Rekurzivní jazykové modely, nikoli "Rekurzivní metakognice". A autoři nejsou náhodní výzkumníci, kteří by se snažili získat počet citací.
Omar Khattab vytvořil DSPy, která má 31 000+ hvězd na GitHubu, a změnil způsob, jakým lidé staví složené AI systémy. Tim Kraska byl průkopníkem struktur naučených indexů spolu s Jeffem Deanem v Googlu a vede MIT Data Systems and AI Lab. Alex Zhang je doktorand pracující na průsečíku obou těchto oblastí.
Samotný článek řeší konkrétní problém: LLM se zhoršují v dlouhém kontextu. Graf ukazuje, že výkon GPT-5 klesá, když délka vstupu škáluje z 2^14 na 2^21 tokenů, zatímco RLM si udržují stabilní výkon. Zpracovávají vstupy stokrát víc než kontextová okna.
Klíčový poznatek z Khattabova vlastního Twitteru: "Většina lidí si RLM mylně vkládá jako o tom, že se LLM vyvolávají samy sebe. Hlubší vhled spočívá v tom, že LLM interagují se svými vlastními prompty jako objekty."
To rozšiřuje celý výzkumný oblouk Khattaba. DSPy proměnil prompty v programové moduly. ColBERT udělal získávání chytřejším. RLM přeměňují samotný kontext na něco, co model může manipulovat jako s daty v paměti.
Prime Intellect, jedna z předních decentralizovaných AI laboratoří, na tom již staví. Napsali, že RLM jim umožní "naučit modely spravovat svůj vlastní kontext end-to-end pomocí posilovaného učení" pro agenty běžící týdny nebo měsíce.
Opravdový obchod? To řeší omezení, kterému čelí každá AI laboratoř: kontextová okna jsou tvrdý strop. Rozšiřování těchto projektů prostřednictvím architektury a školení je drahé. RLM nabízejí přístup s časem inference, který pracuje s existujícími modely.
Ale pozor na háček: to vyžaduje modely, které dokážou spolehlivě psát a vykonávat kód. Benchmarky používají GPT-5 v Python REPL. Modely se slabším generováním kódu budou mít problém implementovat rekurzivní dekompozici čistě. Technika se škáluje podle schopnosti kódu, nejen podle schopnosti uvažování.

God of PromptPřed 18 h
Odpočívaj v pokoji. Základní pobídky.
MIT právě opustilo techniku, která nutí ChatGPT rozumovat jako tým expertů místo jednoho přehnaně sebevědomého stážisty.
Jmenuje se "Rekurzivní metakognice" a překonává standardní prompty o 110 %.
Tady je zadání (a proč to všechno mění) 👇

Odlišný pohled řeší problém důvěry, který blokuje přijetí AI kódování.
Když vývojáři přesně vidí, co se změnilo, přestávají AI kód vnímat jako černou skříňku, kterou je třeba ručně kontrolovat řádek po řádku. Právě tato funkce přesvědčuje skeptiky AI kódování.
Největší stížnost od starších inženýrů na nástroje pro AI kódování: "Stejně musím zkontrolovat každý řádek, takže to neušetří čas." Ta výtka zmizí, když přesně vidíte, co se změnilo, v kontextu, s tím rozdílem přímo tam.
GitHub naučil vývojáře myslet v rozdílech. Kultura code review funguje na rozdílech. Celá svalová paměť "je tahle změna bezpečná?" se přenáší na zelené a červené čáry.
Claude Code přesně odpovídal tomuto mentálnímu modelu. AI už není černá skříňka, která by vypouštěla kód, který musíte auditovat. Je to junior inženýr, který si vytvoří osobní rekord, který zkontrolujete za 30 sekund.
Rozdíl mezi "AI napsala toto" a "AI změnila těchto 12 řádků" je rozdíl mezi nedůvěrou a přijetím.
Sledujte, jak čísla používání rostou.

ClaudePřed 13 h
Novinka v Claude Code na webu i na desktopu: diff view.
Podívejte se na přesné změny, které Claude provedl, aniž by aplikaci opustil.

Top
Hodnocení
Oblíbené