Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Chtěl jsem získat lepší intuice pro to, jak RL funguje na LLM.
Tak jsem napsal jednoduchý skript, který naučí Nanochat sčítat 5místná čísla.
Byl jsem překvapen, jak rychle se učil.
Dokud jsem se nepodíval na generace modelu a neuvědomil si, že se právě naučil vždy volat vestavěný interpret 😂 Pythonu .
Kód, který jsem napsal, je velmi nápravný, minimální a neefektivní - jsem profesionální podcaster, ano?
Ale může to být užitečné, pokud chcete vidět jen základy toho, jak REINFORCED nebo GRPO fungují. Odkaz na podstatu níže.
V zásadě to není tak složité: vygenerovat více trajektorií na výzvu. Aktualizujte svůj model, aby bylo pravděpodobnější, že vzorkuje všechny tokeny v úspěšných trajektoriích.


Andrej Karpathy13. 10. 23:16
S nadšením vydáváme nové repo: nanochat!
(patří mezi nejpomatenější, které jsem napsal).
Na rozdíl od mého dřívějšího podobného repo nanoGPT, které pokrývalo pouze předtrénování, je nanochat minimální, od nuly, full-stack trénovací/inferenční pipeline jednoduchého klonu ChatGPT v jediné kódové základně s minimální závislostí. Spustíte cloudový GPU box, spustíte jediný skript a za pouhé 4 hodiny později můžete mluvit se svým vlastním LLM ve webovém uživatelském rozhraní podobném ChatGPT.
Váží ~8 000 řádků imo docela čistého kódu, aby:
- Trénujte tokenizátor pomocí nové implementace Rust
- Předtrénovat Transformer LLM na FineWebu, vyhodnotit CORE skóre v řadě metrik
- Midtrain na konverzace s uživatelským asistentem ze SmolTalku, otázky s výběrem odpovědí, používání nástrojů.
- SFT, vyhodnoťte model chatu na základě možnosti výběru z více možností (ARC-E/C, MMLU), matematiky (GSM8K), kódu (HumanEval)
- RL model volitelně na GSM8K s "GRPO"
- Efektivní odvozování modelu v Enginu s KV cache, jednoduché předvyplňování/dekódování, použití nástrojů (interpret Pythonu v odlehčeném pískovišti), mluvte s ním přes CLI nebo WebUI podobné ChatGPT.
- Napište jednu markdown vysvědčení, které celou věc shrne a gamifikuje.
I za cenu ~100 $ (~4 hodiny na uzlu 8XH100) můžete vytrénovat malý klon ChatGPT, se kterým můžete tak trochu mluvit a který dokáže psát příběhy/básně, odpovídat na jednoduché otázky. Přibližně ~12 hodin překonává metriku GPT-2 CORE. Jak se dále rozšiřujete směrem k ~ 1000 $ (~ 41,6 hodin školení), rychle se stává mnohem koherentnějším a dokáže řešit jednoduché matematické/kódové problémy a skládat testy s výběrem odpovědí. Např. model hloubky 30 trénovaný 24 hodin (to se přibližně rovná FLOPům GPT-3 Small 125M a 1/1000 GPT-3) se dostane do 40s na MMLU a 70s na ARC-Easy, 20s na GSM8K atd.
Mým cílem je dostat celý "silný základní" stack do jednoho soudržného, minimálního, čitelného, hacknutelného a maximálně forkovatelného repozitáře. nanochat bude vrcholným projektem LLM101n (který je stále ve vývoji). Myslím, že má také potenciál vyrůst ve výzkumnou soustavu nebo benchmark, podobně jako předtím nanoGPT. V žádném případě to není dokončené, vyladěné nebo optimalizované (ve skutečnosti si myslím, že je tam pravděpodobně docela dost nízko visícího ovoce), ale myslím, že je to na místě, kde je celková kostra dostatečně v pořádku, aby mohla jít na GitHub, kde mohou být všechny její části vylepšeny.
Odkaz na repo a podrobný návod na nanochat speedrun je v odpovědi.

174,03K
.@karpathy říká, že LLM v současné době postrádají kulturní akumulaci a sebehru, která vyhnala lidi ze savany:
Kultura: > "Proč by LLM nemohl napsat knihu pro ostatní LLM? Proč by si ostatní LLM nemohli přečíst tuto knihu LLM a být jí inspirováni nebo šokováni?"
Vlastní hra: > "Je to extrémně výkonné. Evoluce má spoustu konkurence, která pohání inteligenci a evoluci. AlphaGo hraje sám proti sobě a tak se učí být v Go opravdu dobrý. V LLM neexistuje žádný ekvivalent self-play. Proč by například LLM nemohl vytvořit spoustu problémů, které se jiný LLM učí řešit? Pak se LLM vždy snaží sloužit více a více obtížným problémům."
Zeptal jsem se Karpathyho, proč LLM stále ještě nejsou schopni budovat kulturu tak, jak to dělají lidé.
> "Hloupější modelky nápadně připomínají žáky z mateřské školky. [Nejchytřejší modelky se však stále cítí jako] studenti základní školy. Nějak jsme stále neabsolvovali dost na to, abychom mohli [tyto modely] převzít. Můj Claudův kód nebo kodex, pořád mi připadají jako studenti základní třídy. Vím, že mohou skládat doktorandské kvízy, ale stále si kognitivně připadají jako v mateřské školce."
> "Nemyslím si, že mohou vytvářet kulturu, protože jsou to stále děti. Jsou to děti učenců. Mají dokonalou paměť. Dokážou přesvědčivě vytvořit všechny druhy břečky, která vypadá opravdu dobře. Ale pořád si myslím, že opravdu nevědí, co dělají. Nemají opravdu znalosti o všech těch malých zaškrtávacích políčkách, která stále musíme sbírat."

Dwarkesh Patel18. 10. 01:16
Rozhovor s @karpathy
0:00:00 – AGI je ještě deset let daleko
0:30:33 – LLM kognitivní deficity
0:40:53 – RL je hrozný
0:50:26 – Jak se lidé učí?
1:07:13 – AGI se prolne do 2% růstu HDP
1:18:24 – ASI
1:33:38 – Evoluce inteligence a kultury
1:43:43 – Proč samořízení trvalo tak dlouho
1:57:08 – Budoucnost vzdělávání
Podívejte se na Dwarkesh Podcast na YouTube, Apple Podcasts, Spotify atd. Užijte si to!
103,47K
Top
Hodnocení
Oblíbené