Die Hypothese des universellen Gewichtssubraums Unsere Ergebnisse bieten neue Einblicke in die intrinsische Organisation von Informationen innerhalb tiefer Netzwerke und werfen wichtige Fragen zur Möglichkeit auf, diese universellen Subräume zu entdecken, ohne umfangreiche Daten und Rechenressourcen zu benötigen. ... durch die Durchführung von schichtweisen spektralen Zerlegungen und das Beibehalten nur der führenden Hauptrichtungen kann eine genaue Annäherung an diese universellen Subräume extrahiert werden. Empirisch zeigt sich dieses Verhalten breit: in vollständig feinabgestimmten Modellen und LoRA-basierten Adaptern, in Modellen, die von Grund auf trainiert wurden, sowohl in generativen als auch in diskriminativen Einstellungen und in multimodalen Konfigurationen. Darüber hinaus generalisieren die approximierten Subräume auf Aufgaben außerhalb der Verteilung, wo es ausreicht, Modelle zu projizieren und nur eine kleine Menge von Koeffizienten zu lernen, um eine starke Leistung wiederherzustellen. Dies ermöglicht die Anpassung an neue Aufgaben, ohne das vollständige Training oder die Speicherung vollständiger Gewichte, und unterstützt robustes Multi-Task-Learning, skalierbares Feintuning und prinzipielles Modell-Merging innerhalb eines einzigen einheitlichen Rahmens. Die praktischen Implikationen sind erheblich. Durch die Wiederverwendung eines gemeinsamen Satzes von schichtweisen Hauptrichtungen und das Lernen nur leichter Koeffizienten pro Aufgabe können große Modelle mit dramatisch reduzierten Rechen-, Speicher- und Ingenieuroverhead erweitert und bereitgestellt werden. ... können wir effektiv verfügbare vortrainierte Modelle mit einem universellen Subraum-Modell recyceln und ersetzen, wobei jedes Individuum durch einen spärlichen Satz von Koeffizienten dargestellt wird. In diesem Abschnitt zeigen wir eine Reihe von Experimenten, in denen wir die universellen Subräume nutzen, um neue Aufgaben zu lernen, indem wir die Komponenten einfrieren und einfach die Koeffizienten mit Gradientenabstieg lernen. Wir stellen fest, dass, da wir nur die Koeffizienten lernen, die Anzahl der Parameter, die erforderlich sind, um die neuen Modelle zu trainieren, drastisch reduziert wird. Darüber hinaus ist die Optimierung, da diese Koeffizienten einfach lineare Skalierungswerte sind, glatter und schneller.