Слайди моєї лекції "LLM Reasoning" у Стенфордському університеті CS 25: Ключові тези: 1. Міркування в LLM просто означає створення послідовності проміжних лексем перед тим, як дати остаточну відповідь. Чи схоже це на людське міркування – не має значення. Ключовим моментом є те, що трансформаторні моделі можуть стати майже довільно потужними, генеруючи багато проміжних токенів, без необхідності масштабування розміру моделі ( 2. Заздалегідь підготовлені моделі, навіть без будь-якої тонкої настройки, здатні міркувати. Проблема полягає в тому, що вихідні дані, засновані на міркуваннях, часто не відображаються на вершині розподілу виводу, тому стандартне жадібне декодування не виводить їх на поверхню ( 3. Для викликання міркувань зазвичай використовувалися методи спонукання (наприклад, спонукання ланцюга думок або «давайте подумаємо крок за кроком») і контрольоване тонке налаштування. Зараз тонке налаштування RL стало найпотужнішим методом. Цей трюк був незалежно виявлений кількома лабораторіями. У Google заслуга належить Джонатану Лаю з моєї команди. Виходячи з нашої теорії (див. пункт 1), масштабування RL має бути зосереджене на генерації довгих відповідей, а не на чомусь іншому. 4. Міркування LLM можна значно покращити шляхом створення кількох відповідей і їх агрегування, а не покладання на одну відповідь (
177,29K