Hipotesis Subruang Berat Universal Temuan kami menawarkan wawasan baru tentang organisasi intrinsik informasi dalam jaringan dalam dan menimbulkan pertanyaan penting tentang kemungkinan menemukan subruang universal ini tanpa memerlukan data dan sumber daya komputasi yang luas. ... Dengan melakukan dekomposisi spektral berdasarkan lapisan dan hanya mempertahankan arah utama terkemuka, perkiraan yang akurat dari subruang universal ini dapat diekstraksi. Secara empiris, perilaku ini muncul secara luas: dalam model yang sepenuhnya disempurnakan dan adaptor berbasis LoRA, dalam model yang dilatih dari awal, dalam pengaturan generatif dan diskriminatif, dan dalam konfigurasi multimoda. Selain itu, subruang yang diperkirakan digeneralisasi ke tugas di luar distribusi, di mana memproyeksikan model dan mempelajari hanya serangkaian kecil koefisien cukup untuk memulihkan kinerja yang kuat. Hal ini memungkinkan beradaptasi dengan tugas-tugas baru tanpa melatih ulang atau menyimpan bobot penuh, dan mendukung pembelajaran multi-tugas yang kuat, penyempurnaan yang dapat diskalakan, dan penggabungan model berprinsip dalam satu kerangka kerja pemersatu. Implikasi praktisnya sangat besar. Dengan menggunakan kembali serangkaian arah utama yang sama pada lapisan dan hanya mempelajari koefisien ringan per tugas, model besar dapat diperluas dan dilayani dengan overhead komputasi, memori, dan teknik yang berkurang secara dramatis. ... Kami dapat secara efektif mendaur ulang dan mengganti model yang telah dilatih sebelumnya dengan model subruang universal dengan setiap individu diwakili oleh serangkaian koefisien yang jarang. Di bagian ini, kami menunjukkan serangkaian eksperimen di mana kami memanfaatkan subruang universal untuk mempelajari tugas baru dengan membekukan komponen dan hanya mempelajari koefisien menggunakan penurunan gradien. Kami menemukan bahwa karena kami hanya mempelajari koefisien, itu secara drastis mengurangi jumlah parameter yang diperlukan untuk melatih model baru. Selanjutnya, karena koefisien ini hanyalah nilai penskalaan linier, pengoptimalannya lebih halus dan lebih cepat.