Diapositive per la mia lezione "LLM Reasoning" al Stanford CS 25: Punti chiave: 1. Il ragionamento negli LLM significa semplicemente generare una sequenza di token intermedi prima di produrre la risposta finale. Se questo somiglia al ragionamento umano è irrilevante. L'intuizione cruciale è che i modelli transformer possono diventare quasi arbitrariamente potenti generando molti token intermedi, senza la necessità di aumentare le dimensioni del modello. 2. I modelli pre-addestrati, anche senza alcun fine-tuning, sono in grado di ragionare. La sfida è che le uscite basate sul ragionamento spesso non appaiono in cima alla distribuzione delle uscite, quindi la decodifica greedy standard non riesce a farle emergere. 3. Tecniche di prompting (ad es., prompting a catena di pensieri o "pensiamo passo dopo passo") e fine-tuning supervisionato sono state comunemente utilizzate per suscitare ragionamento. Ora, il fine-tuning RL è emerso come il metodo più potente. Questo trucco è stato scoperto indipendentemente da diversi laboratori. In Google, il merito va a Jonathan Lai del mio team. Basato sulla nostra teoria (vedi punto 1), il scaling del RL dovrebbe concentrarsi sulla generazione di risposte lunghe piuttosto che su qualcos'altro. 4. Il ragionamento LLM può essere enormemente migliorato generando più risposte e poi aggregandole, piuttosto che facendo affidamento su una singola risposta.
177,29K