Slides para minha palestra "LLM Reasoning" em Stanford CS 25: Pontos chave: 1. Raciocinar em LLMs significa simplesmente gerar uma sequência de tokens intermediários antes de produzir a resposta final. Se isso se assemelha ao raciocínio humano é irrelevante. O insight crucial é que os modelos de transformadores podem se tornar quase arbitrariamente poderosos gerando muitos tokens intermediários, sem a necessidade de dimensionar o tamanho do modelo ( 2. Modelos pré-treinados, mesmo sem qualquer ajuste fino, são capazes de raciocinar. O desafio é que as saídas baseadas em raciocínio geralmente não aparecem no topo da distribuição de saída, portanto, a decodificação greedy padrão não consegue apresentá-las ( 3. Técnicas de solicitação (por exemplo, solicitação em cadeia de pensamento ou "vamos pensar passo a passo") e ajuste fino supervisionado eram comumente usados para obter raciocínio. Agora, o ajuste fino de RL surgiu como o método mais poderoso. Esse truque foi descoberto de forma independente por vários laboratórios. No Google, o crédito vai para Jonathan Lai na minha equipe. Com base em nossa teoria (veja o ponto 1), o dimensionamento de RL deve se concentrar em gerar respostas longas em vez de outra coisa. 4. O raciocínio do LLM pode ser enormemente melhorado gerando várias respostas e, em seguida, agregando-as, em vez de depender de uma única resposta (
177,34K