Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alguns slides da minha palestra na @PyTorch conf no início desta semana sobre as escolhas de design dos verificadores e como estamos construindo o ecossistema principal para ambientes de RL aberta :)




notavelmente:
- achamos que o encapsulamento certo para um ambiente é um pacote Python instalável que implementa uma função de fábrica e que pode gerenciar recursos externos por meio de uma biblioteca de componentes pré-construídos ou por meio de seus próprios lançadores personalizados
- achamos que a API OpenAI Chat Completions é o nível certo de abstração para a maioria dos desenvolvedores que criam ambientes, com o OpenAI Completions como uma opção para a fração de casos que exigem um controle mais refinado
- Achamos que os desenvolvedores de instrutores e estruturas de ambiente devem arcar com o ônus de expor primitivos limpos e familiares aos construtores de ambientes, que refletem as experiências de desenvolvimento de construir agentes estáticos ou avaliações
- achamos que os ambientes de RL para LLMs trazem desafios únicos em relação às eras anteriores de RL, e que as abstrações devem evoluir para levar isso em conta
- Achamos que os contêineres são importantes para muitos ambientes, mas não devem ser obrigatórios para ambientes que não precisam deles
- Acreditamos que a construção desse ecossistema é um desafio global, exigindo discussões abertas e diferenciadas entre as partes interessadas para garantir que todos possam se beneficiar
passamos muito tempo pensando sobre essas coisas, debatendo compensações, iterando e experimentando. Se há algo que você precisa que ainda não apoiamos, ou sugestões sobre como podemos melhorar, estamos todos ouvidos :)
22,36K
Melhores
Classificação
Favoritos

