Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Гіпотеза підпростору універсальної ваги
Наші висновки дають нові уявлення про внутрішню організацію інформації в глибоких мережах і ставлять важливі питання щодо можливості відкриття цих універсальних підпросторів без потреби у великих даних і обчислювальних ресурсах.
... Виконуючи спектральні розклади по шарах і зберігаючи лише основні напрямки, можна отримати точне наближення цих універсальних підпросторів. Емпірично ця поведінка проявляється широко: у повністю тонко налаштованих моделях і адаптерах на основі LoRA, у моделях, навчених з нуля, як у генеративних, так і в дискримінативних умовах, а також у мультимодальних конфігураціях. Крім того, апроксимовані підпростори узагальнюються на завдання поза розподілом, де проєкція моделей і вивчення лише невеликого набору коефіцієнтів достатні для отримання сильної продуктивності. Це дозволяє адаптуватися до нових завдань без перенавчання чи зберігання повних ваг, а також підтримує надійне багатозадачне навчання, масштабоване тонке налаштування та принципове об'єднання моделей в єдиній єдиній структурі.
Практичні наслідки є суттєвими. Повторно використовуючи спільний набір основних напрямків за шарами та вивчаючи лише легкі коефіцієнти на завдання, великі моделі можна розширити і обслуговувати з суттєво зменшеними обчислювальними, пам'ятними та інженерними витратами.
... Ми можемо ефективно переробляти та замінювати доступні попередньо навчені моделі універсальною підпросторовою моделлю, де кожен індивід представлений розрідженим набором коефіцієнтів. У цьому розділі ми показуємо набір експериментів, де використовуємо універсальні підпростори для вивчення нових завдань, заморожуючи компоненти та просто вивчаючи коефіцієнти за допомогою градієнтного спуску. Ми виявляємо, що оскільки ми вивчаємо лише коефіцієнти, це суттєво зменшує кількість параметрів, необхідних для навчання нових моделей. Крім того, оскільки ці коефіцієнти є просто лінійними значеннями масштабування, оптимізація відбувається плавніше і швидше.

Найкращі
Рейтинг
Вибране
