Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Prezentace pro mou přednášku "LLM Reasoning" na Stanfordu CS 25:
Klíčové body:
1. Uvažování v LLM jednoduše znamená generování sekvence mezilehlých tokenů před vytvořením konečné odpovědi. Zda se to podobá lidskému uvažování, je irelevantní. Zásadním poznatkem je, že modely transformátorů se mohou stát téměř libovolně výkonnými generováním mnoha mezilehlých tokenů, aniž by bylo nutné měnit velikost modelu (
2. Předtrénované modely, dokonce i bez jakéhokoli doladění, jsou schopné uvažování. Problém je v tom, že výstupy založené na uvažování se často neobjevují na vrcholu distribuce výstupů, takže standardní nenasytné dekódování je nedokáže zobrazit (
3. K vyvolání uvažování se běžně používaly techniky nabádání (např. nabádání myšlenkového řetězce nebo "přemýšlejme krok za krokem") a jemné ladění pod dohledem. Nyní se ukázalo, že nejúčinnější metodou je jemné doladění RL. Tento trik byl nezávisle objeven několika laboratořemi. Ve společnosti Google má zásluhu Jonathan Lai z mého týmu. Na základě naší teorie (viz bod 1) by se škálování RL mělo zaměřit spíše na generování dlouhých odpovědí než na něco jiného.
4. LLM uvažování lze výrazně zlepšit generováním více odpovědí a jejich následnou agregací, spíše než spoléháním se na jedinou odpověď (
177,27K
Top
Hodnocení
Oblíbené