Slajdy do mojego wykładu "Rozumowanie LLM" na Stanford CS 25: Kluczowe punkty: 1. Rozumowanie w LLM oznacza po prostu generowanie sekwencji pośrednich tokenów przed uzyskaniem ostatecznej odpowiedzi. To, czy przypomina to ludzkie rozumowanie, jest nieistotne. Kluczowym spostrzeżeniem jest to, że modele transformatorowe mogą stać się niemal dowolnie potężne, generując wiele pośrednich tokenów, bez potrzeby zwiększania rozmiaru modelu. 2. Modele wstępnie wytrenowane, nawet bez jakiegokolwiek dostrajania, są zdolne do rozumowania. Wyzwanie polega na tym, że wyniki oparte na rozumowaniu często nie pojawiają się na szczycie rozkładu wyników, więc standardowe zachłanne dekodowanie nie potrafi ich wydobyć. 3. Techniki podpowiadania (np. podpowiadanie w łańcuchu myślenia lub "pomyślmy krok po kroku") oraz nadzorowane dostrajanie były powszechnie stosowane, aby wywołać rozumowanie. Teraz, dostrajanie za pomocą RL stało się najpotężniejszą metodą. Ten trik został niezależnie odkryty przez kilka laboratoriów. W Google, zasługi przypisuje się Jonathanowi Lai z mojego zespołu. Na podstawie naszej teorii (zobacz punkt 1), skalowanie RL powinno koncentrować się na generowaniu długich odpowiedzi, a nie na czymś innym. 4. Rozumowanie LLM można znacznie poprawić, generując wiele odpowiedzi, a następnie je agregując, zamiast polegać na pojedynczej odpowiedzi.
177,27K