Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'Ipotesi del Sottospazio Universale dei Pesi
I nostri risultati offrono nuove intuizioni sull'organizzazione intrinseca delle informazioni all'interno delle reti profonde e sollevano importanti interrogativi sulla possibilità di scoprire questi sottospazi universali senza la necessità di ampi dati e risorse computazionali.
... eseguendo decomposizioni spettrali a livello di strato e mantenendo solo le direzioni principali, è possibile estrarre un'approssimazione accurata di questi sottospazi universali. Empiricamente, questo comportamento emerge ampiamente: in modelli completamente ottimizzati e adattatori basati su LoRA, in modelli addestrati da zero, sia in contesti generativi che discriminativi, e in configurazioni multimodali. Inoltre, i sottospazi approssimati si generalizzano a compiti fuori distribuzione, dove proiettare modelli e apprendere solo un piccolo insieme di coefficienti è sufficiente per recuperare buone prestazioni. Questo consente di adattarsi a nuovi compiti senza riaddestrare o memorizzare pesi completi, e supporta un apprendimento multi-task robusto, un fine-tuning scalabile e una fusione di modelli principled all'interno di un unico framework unificante.
Le implicazioni pratiche sono sostanziali. Riutilizzando un insieme comune di direzioni principali a livello di strato e apprendendo solo coefficienti leggeri per compito, i grandi modelli possono essere estesi e serviti con un notevole ridotto sovraccarico computazionale, di memoria e ingegneristico.
... possiamo riciclare e sostituire efficacemente i modelli pre-addestrati disponibili con un modello di sottospazio universale, con ogni individuo rappresentato da un insieme sparso di coefficienti. In questa sezione, mostriamo un insieme di esperimenti in cui utilizziamo i sottospazi universali per apprendere nuovi compiti congelando i componenti e semplicemente apprendendo i coefficienti utilizzando la discesa del gradiente. Scopriamo che poiché stiamo solo apprendendo i coefficienti, questo riduce drasticamente il numero di parametri richiesti per addestrare i nuovi modelli. Inoltre, poiché questi coefficienti sono semplicemente valori di scala lineare, l'ottimizzazione è più fluida e veloce.

Principali
Ranking
Preferiti
