Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Slides para a minha palestra "Raciocínio em LLM" no Stanford CS 25:
Pontos principais:
1. Raciocínio em LLMs significa simplesmente gerar uma sequência de tokens intermediários antes de produzir a resposta final. Se isso se assemelha ao raciocínio humano é irrelevante. A percepção crucial é que os modelos transformer podem se tornar quase arbitrariamente poderosos ao gerar muitos tokens intermediários, sem a necessidade de aumentar o tamanho do modelo.
2. Modelos pré-treinados, mesmo sem qualquer ajuste fino, são capazes de raciocinar. O desafio é que as saídas baseadas em raciocínio muitas vezes não aparecem no topo da distribuição de saída, então a decodificação gananciosa padrão falha em destacá-las.
3. Técnicas de prompting (por exemplo, prompting em cadeia de pensamento ou "vamos pensar passo a passo") e ajuste fino supervisionado foram comumente usadas para elicitar raciocínio. Agora, o ajuste fino por RL surgiu como o método mais poderoso. Este truque foi descoberto independentemente por vários laboratórios. No Google, o crédito vai para Jonathan Lai da minha equipe. Com base na nossa teoria (veja o ponto 1), escalar o RL deve se concentrar em gerar respostas longas em vez de outra coisa.
4. O raciocínio em LLM pode ser enormemente melhorado gerando múltiplas respostas e, em seguida, agregando-as, em vez de depender de uma única resposta.
177,33K
Top
Classificação
Favoritos