Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fizician, fondator AI, Manifold Podcast
Ipoteza subspațiului cu greutate universală
Descoperirile noastre oferă noi perspective asupra organizării intrinsecă a informației în cadrul rețelelor profunde și ridică întrebări importante despre posibilitatea descoperirii acestor subspații universale fără necesitatea unor date extinse și resurse computaționale.
... Prin efectuarea descompunerii spectrale pe straturi și păstrarea doar a direcțiilor principale principale, se poate extrage o aproximare precisă a acestor subspații universale. Empiric, acest comportament apare pe scară largă: în modele complet finetunate și adaptoare bazate pe LoRA, în modele antrenate de la zero, atât în contexte generative, cât și discriminative, precum și în configurații multimodale. Mai mult, subspațiile aproximate se generalizează la sarcini în afara distribuției, unde proiectarea modelelor și învățarea doar a unui set mic de coeficienți sunt suficiente pentru a recupera performanțe puternice. Acest lucru permite adaptarea la sarcini noi fără a reantrena sau stoca greutăți complete și susține învățarea robustă multi-task, fine-tuning-ul scalabil și îmbinarea modelelor pe bază de principii într-un singur cadru unificator.
Implicațiile practice sunt substanțiale. Prin reutilizarea unui set comun de direcții principale pe straturi și învățarea doar a coeficienților ușori pe sarcină, modelele mari pot fi extinse și deservite cu o sarcină computațională, de memorie și inginerie dramatic redusă.
... Putem recicla și înlocui eficient modelele preantrenate disponibile cu un model universal de subspațiu, fiecare individ fiind reprezentat printr-un set rar de coeficienți. În această secțiune, prezentăm un set de experimente în care utilizăm subspațiile universale pentru a învăța sarcini noi, înghețând componentele și învățând pur și simplu coeficienții folosind coborârea gradientului. Constatăm că, deoarece învățăm doar coeficienții, acest lucru reduce drastic numărul de parametri necesari pentru antrenarea noilor modele. Mai mult, deoarece acești coeficienți sunt pur și simplu valori liniare de scalare, optimizarea este mai lină și mai rapidă.

28
Tocmai a apărut asta pe feed-ul meu, de acum aproximativ 1 an - pare destul de solid! @davidpgoldman

steve hsu4 feb. 2025
Acesta este din articolul meu din AsiaTimes cu @davidpgoldman
Tech bro-ii "AGI-pilled" urmează doar #6. Convingerile lor, credeți sau nu, stau la baza strategiei americane de război cu cipuri: AGI este aproape, oprirea progresului RPC în poziția #6 este o prioritate maximă, iar renunțarea la industria semiconductorilor în acest proces este în regulă atâta timp cât ajungem mai întâi la AGI cu decolare rapidă.
Evident, lucrurile s-ar putea să nu se întâmple așa. Pot deja să văd, din experiență directă ca fondator AI, că aplicarea AI în economia generală este limitată de rată de luarea deciziilor umane, care se adaptează lent la noua tehnologie. Lucrurile pot dura mai mult decât anticipează tehnologii de 30 de ani, chiar dacă progresul AI în sine este rapid.
Majoritatea entuziaștilor AI nu înțeleg foarte bine lumea fizică (chimie, fizică, inginerie dură, biologie, psihologia creierului maimuțelor), așa că supraestimează cât de repede se va face "traducerea" (folosind termenul biotehnologic) a noilor inovații în practică. În domeniul Studiilor de Progres, acest lucru este adesea denumit procesul de difuzie a tehnologiei, care este mult mai lent decât se așteaptă tehnologii înșiși.

7
Richard Feynman și eu, la 19 ani, la absolvirea mea de la Caltech.
Nano Banana (Gemini) a curățat această imagine - îndepărtând zgârieturile.
Original:


steve hsu26 dec. 2016
Richard Feynman și eu, la 19 ani, la absolvirea mea de la Caltech (Am găsit asta în albumul foto al mamei mele :-) #feynman

36
Limită superioară
Clasament
Favorite