Proč je zkřížená entropie dobrou ztrátou pro předtrénování jazyka? Upozornění: To je mimochodem vše známo; Zajímavé je, že i když existuje mnoho úhlů pohledu a intuice na "proč X-ent", ke všem lze dospět z jediného výchozího bodu. Zde je jednoduché odvození prvních principů, které nepředpokládá nic o distribuci dat. Vychází z velmi rozumných provozních požadavků :) "Chci, aby můj model zněl inteligentně" To ale nemůžeme změřit, a tak se ptáme "Chci, aby můj model zněl jako člověk" Ačkoliv máme přístup ke všem textům, které kdy byly napsány, ani to nemůžeme zcela změřit, a tak se místo toho ptáme "Chci, aby můj model s co největší pravděpodobností vygeneroval jeden z textů, které kdy byly napsány" Nebo otevřeněji: "Chci, aby si můj model zapamatoval trénovací data." Zvažte tento myšlenkový experiment: Na základě datové sady S veškerého textu, který kdy lidé napsali, provádíme nezávislé testy pro každý "text" v S: Ukázka: "ukázkový text" z našeho modelu Pr( ; W) Kontrola: Odpovídal výraz "ukázkový text" přesně originálu? Poznámka: na nic nepodmiňujeme! Jen se ptáme, jestli ze všech věcí, které model dokázal vygenerovat, jsme dostali "text". Definujte úspěch jako událost E = "všechny kontroly na vzorek proběhly úspěšně" Pravděpodobnost E je součinem pravděpodobností přiřazených správné základní pravdě vaším modelem W Pr(E) = Π_{text v S} Pr(text; W) Maximalizace logaritmu Pr(E) nad W vám dává cíl křížové entropie. Jak to optimalizujete pomocí SGD? Ukázkový text z korpusu compute grad log Pr(token|prefix) pro každou předponu textu aktualizovat model Elegantní je, že to samé současně: 1) Minimalizuje délku popisu dat podle modelu P( ; W) (zobrazení komprese) 2) Minimalizuje KL divergenci ke skutečnému rozdělení – pokud existuje (i když jsme ho nikdy nepředpokládali) 3) Implementuje odhad maximální věrohodnosti Odvození je přímočaré a dobře známé, ale zdůrazňuje něco důležitého: Zkřížená entropie vzniká přirozeně z touhy po přesné reprodukci trénovacích dat. P.S. jste místo toho mohli požádat o maximalizaci Pr(text vygenerovaný modelem je v základní pravdě) Zajímavé je, že optimalizace tohoto může vést ke kolapsu režimu, protože optimálním řešením je vždy předpovědět jeden kus textu z korpusu. Přesto gradienty opět vypadají jako x-entropie, ale s multiplikačním faktorem tj. Pr(text; W) grad log Pr(text; W)
57,78K