Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Слайды для моей лекции "LLM Reasoning" на курсе CS 25 в Стэнфорде:
Ключевые моменты:
1. Рассуждение в LLM просто означает генерацию последовательности промежуточных токенов перед тем, как будет получен окончательный ответ. То, напоминает ли это человеческое рассуждение, не имеет значения. Ключевое понимание заключается в том, что трансформерные модели могут стать почти произвольно мощными, генерируя множество промежуточных токенов, без необходимости увеличивать размер модели.
2. Предобученные модели, даже без какой-либо донастройки, способны к рассуждению. Проблема в том, что выводы, основанные на рассуждении, часто не появляются в верхней части распределения выходных данных, поэтому стандартное жадное декодирование не позволяет их выявить.
3. Техники подсказок (например, подсказка цепочкой размышлений или "давайте подумаем шаг за шагом") и контролируемая донастройка часто использовались для вызова рассуждений. Теперь донастройка с использованием RL стала самым мощным методом. Этот трюк был независимо открыт несколькими лабораториями. В Google заслуга принадлежит Джонатану Лаю из моей команды. Основываясь на нашей теории (см. пункт 1), масштабирование RL должно сосредоточиться на генерации длинных ответов, а не на чем-то другом.
4. Рассуждение LLM можно значительно улучшить, генерируя несколько ответов, а затем агрегируя их, а не полагаясь на один ответ.
177,33K
Топ
Рейтинг
Избранное