Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ipoteza subspațiului cu greutate universală
Descoperirile noastre oferă noi perspective asupra organizării intrinsecă a informației în cadrul rețelelor profunde și ridică întrebări importante despre posibilitatea descoperirii acestor subspații universale fără necesitatea unor date extinse și resurse computaționale.
... Prin efectuarea descompunerii spectrale pe straturi și păstrarea doar a direcțiilor principale principale, se poate extrage o aproximare precisă a acestor subspații universale. Empiric, acest comportament apare pe scară largă: în modele complet finetunate și adaptoare bazate pe LoRA, în modele antrenate de la zero, atât în contexte generative, cât și discriminative, precum și în configurații multimodale. Mai mult, subspațiile aproximate se generalizează la sarcini în afara distribuției, unde proiectarea modelelor și învățarea doar a unui set mic de coeficienți sunt suficiente pentru a recupera performanțe puternice. Acest lucru permite adaptarea la sarcini noi fără a reantrena sau stoca greutăți complete și susține învățarea robustă multi-task, fine-tuning-ul scalabil și îmbinarea modelelor pe bază de principii într-un singur cadru unificator.
Implicațiile practice sunt substanțiale. Prin reutilizarea unui set comun de direcții principale pe straturi și învățarea doar a coeficienților ușori pe sarcină, modelele mari pot fi extinse și deservite cu o sarcină computațională, de memorie și inginerie dramatic redusă.
... Putem recicla și înlocui eficient modelele preantrenate disponibile cu un model universal de subspațiu, fiecare individ fiind reprezentat printr-un set rar de coeficienți. În această secțiune, prezentăm un set de experimente în care utilizăm subspațiile universale pentru a învăța sarcini noi, înghețând componentele și învățând pur și simplu coeficienții folosind coborârea gradientului. Constatăm că, deoarece învățăm doar coeficienții, acest lucru reduce drastic numărul de parametri necesari pentru antrenarea noilor modele. Mai mult, deoarece acești coeficienți sunt pur și simplu valori liniare de scalare, optimizarea este mai lină și mai rapidă.

Limită superioară
Clasament
Favorite
