Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Слайди моєї лекції "LLM Reasoning" у Стенфордському університеті CS 25:
Ключові тези:
1. Міркування в LLM просто означає створення послідовності проміжних лексем перед тим, як дати остаточну відповідь. Чи схоже це на людське міркування – не має значення. Ключовим моментом є те, що трансформаторні моделі можуть стати майже довільно потужними, генеруючи багато проміжних токенів, без необхідності масштабування розміру моделі (
2. Заздалегідь підготовлені моделі, навіть без будь-якої тонкої настройки, здатні міркувати. Проблема полягає в тому, що вихідні дані, засновані на міркуваннях, часто не відображаються на вершині розподілу виводу, тому стандартне жадібне декодування не виводить їх на поверхню (
3. Для викликання міркувань зазвичай використовувалися методи спонукання (наприклад, спонукання ланцюга думок або «давайте подумаємо крок за кроком») і контрольоване тонке налаштування. Зараз тонке налаштування RL стало найпотужнішим методом. Цей трюк був незалежно виявлений кількома лабораторіями. У Google заслуга належить Джонатану Лаю з моєї команди. Виходячи з нашої теорії (див. пункт 1), масштабування RL має бути зосереджене на генерації довгих відповідей, а не на чомусь іншому.
4. Міркування LLM можна значно покращити шляхом створення кількох відповідей і їх агрегування, а не покладання на одну відповідь (
177,29K
Найкращі
Рейтинг
Вибране