Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Queria obter melhores intuições de como o RL funciona em LLMs.
Então eu escrevi um script simples para ensinar o Nanochat a adicionar números de 5 dígitos.
Fiquei surpreso com a rapidez com que aprendeu.
Até que olhei para as gerações do modelo e percebi que ele tinha acabado de aprender a sempre chamar o interpretador 😂 Python embutido.
O código que escrevi é muito corretivo, mínimo e ineficiente - sou um podcaster profissional, certo?
Mas pode ser útil se você quiser apenas ver o básico de como REFORÇAR ou GRPO funcionam. Link para a essência abaixo.
Fundamentalmente, não é tão complicado: gere várias trajetórias por prompt. Atualize seu modelo para aumentar a probabilidade de que ele obtenha amostras de todos os tokens nas trajetórias bem-sucedidas.

Melhores
Classificação
Favoritos