Слайды для моей лекции "LLM Reasoning" на курсе CS 25 в Стэнфорде: Ключевые моменты: 1. Рассуждение в LLM просто означает генерацию последовательности промежуточных токенов перед тем, как будет получен окончательный ответ. То, напоминает ли это человеческое рассуждение, не имеет значения. Ключевое понимание заключается в том, что трансформерные модели могут стать почти произвольно мощными, генерируя множество промежуточных токенов, без необходимости увеличивать размер модели. 2. Предобученные модели, даже без какой-либо донастройки, способны к рассуждению. Проблема в том, что выводы, основанные на рассуждении, часто не появляются в верхней части распределения выходных данных, поэтому стандартное жадное декодирование не позволяет их выявить. 3. Техники подсказок (например, подсказка цепочкой размышлений или "давайте подумаем шаг за шагом") и контролируемая донастройка часто использовались для вызова рассуждений. Теперь донастройка с использованием RL стала самым мощным методом. Этот трюк был независимо открыт несколькими лабораториями. В Google заслуга принадлежит Джонатану Лаю из моей команды. Основываясь на нашей теории (см. пункт 1), масштабирование RL должно сосредоточиться на генерации длинных ответов, а не на чем-то другом. 4. Рассуждение LLM можно значительно улучшить, генерируя несколько ответов, а затем агрегируя их, а не полагаясь на один ответ.
177,33K