Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ve čtvrtém článku o implementaci vLLM od nuly obracíme naši pozornost na další zdánlivě jednoduchou, ale zásadní komponentu architektury Traver: RMSNorm (Root Mean Square Normalization).
Pojďme se nejprve podívat na to, co je to normalizace, řekněme, že jste právě dokončili závěrečnou zkoušku a vyjdou vám výsledky tří kurzů:
Matematika: 120 ze 150
Angličtina: 80 ze 100
Fyzika: 160 z 200
Který kurz je nejlepší? Pokud přímo porovnáte 120, 80, 160, dojdete k nejlepšímu závěru ve fyzice. Skutečná situace je však taková, že tyto tři kurzy jsou ve skutečnosti stejně dobré.
Matematika: 120/150 = 80%
Angličtina: 80/100 = 80 %
Fyzikální: 160/200 = 80 %
To je základní myšlenka normalizace: převod dat různých rozměrů a různých rozsahů do jednotného standardu pro srovnání.
Proč je třeba neuronové sítě normalizovat?
Představte si, že hrajete hru na zasílání zpráv. První osoba řekla "Mám rád jablka", a když přešla do desáté osoby, stalo se z toho "Mám rád ananas". To je problém, kterému čelí hluboké neuronové sítě.
Každá vrstva sítě provádí určité výpočty na vstupu a poté předává výsledky další vrstvě. Problém je v tom, že s přibývajícím počtem vrstev se tyto hodnoty stávají stále nekontrolovatelnějšími – buď explodují, nebo mizí beze stopy. Podobně jako při hře se zprávami dochází během přenosu k postupnému zkreslení informací.
Přidáním normalizační vrstvy do modelu lze snížit pravděpodobnost exploze nebo zmizení gradientu a proces trénování modelu se stane stabilnějším. Technologie normalizace se vyvinula z BatchNorm na LayerNorm a nakonec na RMSNorm, která se stala standardní konfigurací pro velké modely.
Můj článek vás zavede do historie vývoje normalizačních technologií, pokud vás to zajímá, můžete se podívat na původní článek.


Top
Hodnocení
Oblíbené

