Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alguns slides da minha palestra na conferência @PyTorch no início desta semana sobre as escolhas de design dos verificadores e como temos construído o ecossistema principal para ambientes de RL abertos :)




notavelmente:
- achamos que a encapsulação certa para um ambiente é um pacote Python instalável que implementa uma função de fábrica e que pode gerenciar recursos externos, seja através de uma biblioteca de componentes pré-construídos ou através de seus próprios lançadores personalizados
- achamos que a API OpenAI Chat Completions é o nível certo de abstração para a maioria dos desenvolvedores que constroem ambientes, com OpenAI Completions como uma opção para a fração de casos que requerem um controle mais detalhado
- achamos que os desenvolvedores de frameworks de treinadores e ambientes devem suportar o fardo de expor primitivas limpas e familiares para os construtores de ambientes, que refletem as experiências de desenvolvimento de construção de agentes estáticos ou avaliações
- achamos que os ambientes de RL para LLMs trazem desafios únicos em comparação com eras anteriores de RL, e que as abstrações devem evoluir para levar isso em conta
- achamos que os contêineres são importantes para muitos ambientes, mas não devem ser obrigatórios para ambientes que não precisam deles
- achamos que construir esse ecossistema é um desafio global, exigindo discussões nuançadas e abertas entre as partes interessadas para garantir que todos possam se beneficiar
passamos muito tempo pensando sobre essas questões, debatendo trade-offs, iterando e experimentando. se há algo que você precisa e que ainda não suportamos, ou sugestões sobre como podemos melhorar, estamos todos ouvidos :)
22,36K
Top
Classificação
Favoritos

