Slides para a minha palestra "Raciocínio em LLM" no Stanford CS 25: Pontos principais: 1. Raciocínio em LLMs significa simplesmente gerar uma sequência de tokens intermediários antes de produzir a resposta final. Se isso se assemelha ao raciocínio humano é irrelevante. A percepção crucial é que os modelos transformer podem se tornar quase arbitrariamente poderosos ao gerar muitos tokens intermediários, sem a necessidade de aumentar o tamanho do modelo. 2. Modelos pré-treinados, mesmo sem qualquer ajuste fino, são capazes de raciocinar. O desafio é que as saídas baseadas em raciocínio muitas vezes não aparecem no topo da distribuição de saída, então a decodificação gananciosa padrão falha em destacá-las. 3. Técnicas de prompting (por exemplo, prompting em cadeia de pensamento ou "vamos pensar passo a passo") e ajuste fino supervisionado foram comumente usadas para elicitar raciocínio. Agora, o ajuste fino por RL surgiu como o método mais poderoso. Este truque foi descoberto independentemente por vários laboratórios. No Google, o crédito vai para Jonathan Lai da minha equipe. Com base na nossa teoria (veja o ponto 1), escalar o RL deve se concentrar em gerar respostas longas em vez de outra coisa. 4. O raciocínio em LLM pode ser enormemente melhorado gerando múltiplas respostas e, em seguida, agregando-as, em vez de depender de uma única resposta.
177,33K