Lysbilder for forelesningen min "LLM Reasoning" ved Stanford CS 25: Viktige punkter: 1. Resonnement i LLM-er betyr ganske enkelt å generere en sekvens av mellomliggende tokens før du produserer det endelige svaret. Hvorvidt dette ligner menneskelig resonnement er irrelevant. Den avgjørende innsikten er at transformatormodeller kan bli nesten vilkårlig kraftige ved å generere mange mellomliggende tokens, uten behov for å skalere modellstørrelsen ( 2. Forhåndstrente modeller, selv uten finjustering, er i stand til å resonnere. Utfordringen er at resonneringsbaserte utdata ofte ikke vises øverst i utdatafordelingen, så standard grådig dekoding klarer ikke å vise dem ( 3. Tilskyndelsesteknikker (f.eks. tankekjede eller "la oss tenke trinn for trinn") og overvåket finjustering ble ofte brukt for å fremkalle resonnement. Nå har RL-finjustering dukket opp som den kraftigste metoden. Dette trikset ble uavhengig oppdaget av flere laboratorier. Hos Google går æren til Jonathan Lai på teamet mitt. Basert på vår teori (se punkt 1), bør skalering av RL fokusere på å generere lange responser i stedet for noe annet. 4. LLM-resonnement kan forbedres enormt ved å generere flere svar og deretter aggregere dem, i stedet for å stole på et enkelt svar (
177,28K