Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Proč je zkřížená entropie dobrou ztrátou pro předtrénování jazyka?
Upozornění: To je mimochodem vše známo; Zajímavé je, že i když existuje mnoho úhlů pohledu a intuice na "proč X-ent", ke všem lze dospět z jediného výchozího bodu.
Zde je jednoduché odvození prvních principů, které nepředpokládá nic o distribuci dat. Vychází z velmi rozumných provozních požadavků :)
"Chci, aby můj model zněl inteligentně"
To ale nemůžeme změřit, a tak se ptáme
"Chci, aby můj model zněl jako člověk"
Ačkoliv máme přístup ke všem textům, které kdy byly napsány, ani to nemůžeme zcela změřit, a tak se místo toho ptáme
"Chci, aby můj model s co největší pravděpodobností vygeneroval jeden z textů, které kdy byly napsány"
Nebo otevřeněji:
"Chci, aby si můj model zapamatoval trénovací data."
Zvažte tento myšlenkový experiment:
Na základě datové sady S veškerého textu, který kdy lidé napsali, provádíme nezávislé testy pro každý "text" v S:
Ukázka: "ukázkový text" z našeho modelu Pr( ; W)
Kontrola: Odpovídal výraz "ukázkový text" přesně originálu? Poznámka: na nic nepodmiňujeme! Jen se ptáme, jestli ze všech věcí, které model dokázal vygenerovat, jsme dostali "text".
Definujte úspěch jako událost
E = "všechny kontroly na vzorek proběhly úspěšně"
Pravděpodobnost E je součinem pravděpodobností přiřazených správné základní pravdě vaším modelem W
Pr(E) = Π_{text v S} Pr(text; W)
Maximalizace logaritmu Pr(E) nad W vám dává cíl křížové entropie.
Jak to optimalizujete pomocí SGD?
Ukázkový text z korpusu
compute grad log Pr(token|prefix) pro každou předponu textu
aktualizovat model
Elegantní je, že to samé současně:
1) Minimalizuje délku popisu dat podle modelu P( ; W) (zobrazení komprese)
2) Minimalizuje KL divergenci ke skutečnému rozdělení – pokud existuje (i když jsme ho nikdy nepředpokládali)
3) Implementuje odhad maximální věrohodnosti
Odvození je přímočaré a dobře známé, ale zdůrazňuje něco důležitého:
Zkřížená entropie vzniká přirozeně z touhy po přesné reprodukci trénovacích dat.
P.S. jste místo toho mohli požádat o maximalizaci
Pr(text vygenerovaný modelem je v základní pravdě)
Zajímavé je, že optimalizace tohoto může vést ke kolapsu režimu, protože optimálním řešením je vždy předpovědět jeden kus textu z korpusu. Přesto gradienty opět vypadají jako x-entropie, ale s multiplikačním faktorem
tj. Pr(text; W) grad log Pr(text; W)
57,78K
Top
Hodnocení
Oblíbené