Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Физик, основатель искусственного интеллекта, подкаст Manifold
Гипотеза о универсальном подпространстве весов
Наши результаты предлагают новые идеи о внутренней организации информации в глубоких сетях и поднимают важные вопросы о возможности открытия этих универсальных подпространств без необходимости в обширных данных и вычислительных ресурсах.
... выполняя спектральные разложения по слоям и сохраняя только ведущие главные направления, можно извлечь точное приближение этих универсальных подпространств. Эмпирически это поведение проявляется широко: в полностью дообученных моделях и адаптерах на основе LoRA, в моделях, обученных с нуля, как в генеративных, так и в дискриминационных настройках, а также в мультимодальных конфигурациях. Более того, приближенные подпространства обобщаются на задачи вне распределения, где проекция моделей и обучение только небольшого набора коэффициентов достаточно для восстановления высокой производительности. Это позволяет адаптироваться к новым задачам без повторного обучения или хранения полных весов и поддерживает надежное многозадачное обучение, масштабируемую тонкую настройку и принципиальное объединение моделей в рамках единой унифицированной структуры.
Практические последствия значительны. Путем повторного использования общего набора главных направлений по слоям и обучения только легковесных коэффициентов для каждой задачи большие модели могут быть расширены и обслужены с резко уменьшенными вычислительными, памятью и инженерными затратами.
... мы можем эффективно перерабатывать и заменять доступные предобученные модели на универсальную модель подпространства, где каждое отдельное представление представлено разреженным набором коэффициентов. В этом разделе мы показываем набор экспериментов, где мы используем универсальные подпространства для обучения новым задачам, замораживая компоненты и просто обучая коэффициенты с помощью градиентного спуска. Мы обнаруживаем, что поскольку мы обучаем только коэффициенты, это значительно сокращает количество параметров, необходимых для обучения новых моделей. Более того, поскольку эти коэффициенты являются просто линейными масштабируемыми значениями, оптимизация проходит более гладко и быстрее.

32
Это только что появилось в моей ленте, примерно год назад - выглядит довольно солидно! @davidpgoldman

steve hsu4 февр. 2025 г.
Это из моей статьи в AsiaTimes с великим @davidpgoldman
"AGI-пилотированные" технобраты следуют только #6. Их убеждения, верите или нет, лежат в основе стратегии США в чиповой войне: AGI близок, остановка прогресса КНР в #6 является главной задачей, и отказ от полупроводниковой промышленности в этом процессе приемлем, если мы сможем первыми достичь быстрого старта AGI.
Очевидно, что события могут развиваться не так. Я уже вижу, из личного опыта как основатель AI, что применение AI в общей экономике ограничивается человеческим принятием решений, которое медленно адаптируется к новым технологиям. Вещи могут занять больше времени, чем ожидают 30-летние технобраты, даже если сам прогресс AI быстрый.
Большинство энтузиастов AI не очень хорошо понимают физический мир (химию, физику, жесткую инженерию, биологию, психологию обезьян) и поэтому переоценивают, насколько быстро произойдет "перевод" (если использовать термин биотехнологий) новых инноваций в практику. В области исследований прогресса это часто называется процессом диффузии технологий, который гораздо медленнее, чем ожидают сами технологи.

10
Ричард Фейнман и 19-летний я на моей выпускной церемонии в Caltech.
Nano Banana (Gemini) очистил это изображение - убрав царапины.
Оригинал:


steve hsu26 дек. 2016 г.
Ричард Фейнман и 19-летний я на моей выпускной церемонии в Caltech (Нашел это в фотоальбоме мамы :-) #feynman

54
Топ
Рейтинг
Избранное