Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Самая интересная часть для меня — это то, где @karpathy описывает, почему LLM не могут учиться, как люди.
Как вы и ожидали, он придумывает замечательную выразительную фразу, чтобы описать RL: "всасывание битов супервизии через соломинку."
Единственное конечное вознаграждение транслируется на каждый токен в успешной траектории, увеличивая вес даже неправильных или неуместных поворотов, которые приводят к правильному ответу.
> "Люди не используют обучение с подкреплением, как я уже говорил ранее. Я думаю, что они делают что-то другое. Обучение с подкреплением гораздо хуже, чем думает средний человек. Обучение с подкреплением ужасно. Просто так получается, что все, что у нас было раньше, гораздо хуже."
Так что же делают люди вместо этого?
> "Книга, которую я читаю, — это набор подсказок для генерации синтетических данных. Манипулируя этой информацией, вы на самом деле получаете эти знания. У нас нет эквивалента этого с LLM; они на самом деле этого не делают."
> "Мне бы хотелось увидеть во время предобучения какую-то стадию, где модель обдумывает материал и пытается согласовать его с тем, что она уже знает. У этого нет эквивалента. Это все исследование."
Почему мы не можем просто добавить это обучение к LLM сегодня?
> "Есть очень тонкие, трудные для понимания причины, почему это не тривиально. Если я просто дам синтетическую генерацию модели, думающей о книге, вы посмотрите на это и скажете: 'Это выглядит здорово. Почему я не могу на этом обучаться?' Вы можете попробовать, но модель на самом деле станет гораздо хуже, если вы продолжите пытаться."
> "Скажем, у нас есть глава книги, и я прошу LLM подумать о ней. Она даст вам что-то, что выглядит очень разумно. Но если я спрошу ее 10 раз, вы заметите, что все они одинаковы."
> "Вы не получаете богатства, разнообразия и энтропии от этих моделей, как вы бы получили от людей. Как вы заставляете синтетическую генерацию данных работать, несмотря на коллапс и при этом сохраняя энтропию? Это исследовательская проблема."
Как люди обходят коллапс модели?
> "Эти аналогии удивительно хороши. Люди коллапсируют в течение своей жизни. Дети еще не переобучены. Они будут говорить вещи, которые вас шокируют. Потому что они еще не коллапсировали. Но мы [взрослые] коллапсировали. Мы в конечном итоге возвращаемся к одним и тем же мыслям, мы продолжаем говорить все больше и больше одного и того же, скорости обучения снижаются, коллапс продолжает ухудшаться, и затем все ухудшается."
На самом деле есть интересная статья, утверждающая, что сны эволюционировали, чтобы помочь обобщению и сопротивляться переобучению к повседневному обучению — посмотрите "Переобученный мозг" от @erikphoel.
Я спросил Карпаты: Неужели не интересно, что люди учатся лучше в определенный период своей жизни (детство), детали которого они полностью забывают, взрослые все еще учатся очень хорошо, но имеют ужасную память о конкретных вещах, которые они читают или смотрят, а LLM могут запоминать произвольные детали текста, которые не может ни один человек, но в настоящее время довольно плохо обобщают?
...
Топ
Рейтинг
Избранное