L'Hypothèse de l'Espace de Poids Universel Nos découvertes offrent de nouvelles perspectives sur l'organisation intrinsèque de l'information au sein des réseaux profonds et soulèvent d'importantes questions sur la possibilité de découvrir ces sous-espaces universels sans avoir besoin de données et de ressources computationnelles étendues. ... en effectuant des décompositions spectrales couche par couche et en ne conservant que les directions principales dominantes, une approximation précise de ces sous-espaces universels peut être extraite. Empiriquement, ce comportement émerge largement : dans des modèles entièrement ajustés et des adaptateurs basés sur LoRA, dans des modèles entraînés depuis zéro, dans des contextes génératifs et discriminatifs, et dans des configurations multimodales. De plus, les sous-espaces approximés se généralisent aux tâches hors distribution, où projeter des modèles et apprendre seulement un petit ensemble de coefficients suffit à récupérer de bonnes performances. Cela permet de s'adapter à de nouvelles tâches sans réentraînement ni stockage de poids complets, et soutient un apprentissage multi-tâches robuste, un ajustement fin évolutif et une fusion de modèles principielle au sein d'un cadre unifié. Les implications pratiques sont substantielles. En réutilisant un ensemble commun de directions principales couche par couche et en apprenant seulement des coefficients légers par tâche, de grands modèles peuvent être étendus et servis avec des coûts computationnels, de mémoire et d'ingénierie considérablement réduits. ... nous pouvons efficacement recycler et remplacer les modèles préentraînés disponibles par un modèle d'espace universel, chaque individu étant représenté par un ensemble sparse de coefficients. Dans cette section, nous montrons un ensemble d'expériences où nous utilisons les sous-espaces universels pour apprendre de nouvelles tâches en gelant les composants et en apprenant simplement les coefficients en utilisant la descente de gradient. Nous constatons que, puisque nous n'apprenons que les coefficients, cela réduit considérablement le nombre de paramètres nécessaires pour entraîner les nouveaux modèles. De plus, puisque ces coefficients ne sont que des valeurs d'échelle linéaire, l'optimisation est plus fluide et plus rapide.