DApp Store | Centrum Web3 pro události a hry

Populární témata

Hypotéza univerzálního váhového subprostoru Naše zjištění nabízejí nové poznatky o vnitřní organizaci informací v hlubokých sítích a kladou důležité otázky ohledně možnosti objevení těchto univerzálních podprostorů bez potřeby rozsáhlých dat a výpočetních zdrojů. ... prováděním vrstvových spektrálních rozkladů a zachováním pouze hlavních směrů lze získat přesnou aproximaci těchto univerzálních podprostorů. Empiricky se toto chování projevuje široce obecně: v plně doladených modelech a adaptérech založených na LoRA, v modelech trénovaných od začátku, v generativních i diskriminačních nastaveních a v multimodálních konfiguracích. Navíc aproximované podprostory zobecňují na úkoly mimo distribuci, kde promítání modelů a učení se pouze malé množiny koeficientů stačí k obnovení silného výkonu. To umožňuje přizpůsobit se novým úkolům bez nutnosti přeškolení nebo ukládání plných vah a podporuje robustní víceúčelové učení, škálovatelné jemné ladění a principiální slučování modelů v rámci jednoho sjednocovacího rámce. Praktické důsledky jsou značné. Použitím společné sady vrstevnatých hlavních směrů a učením se pouze lehkých koeficientů pro úkol lze velké modely rozšířit a obsluhovat s dramaticky sníženou výpočetní, paměťovou a inženýrskou zátěží. ... Můžeme efektivně recyklovat a nahradit dostupné předtrénované modely univerzálním subprostorovým modelem, kde je každý jednotlivec reprezentován řídkou sadou koeficientů. V této části ukazujeme sadu experimentů, kde využíváme univerzální podprostory k učení nových úkolů zmrazením složek a pouhým učením koeficientů pomocí gradientního sestupu. Zjistili jsme, že protože se učíme pouze koeficienty, výrazně se snižuje počet parametrů potřebných k trénování nových modelů. Dále, protože tyto koeficienty jsou pouze lineární škálovací hodnoty, optimalizace je plynulejší a rychlejší.

Top

Hodnocení

Oblíbené