alguns slides da minha palestra na conferência @PyTorch no início desta semana sobre as escolhas de design dos verificadores e como temos construído o ecossistema principal para ambientes de RL abertos :)
notavelmente: - achamos que a encapsulação certa para um ambiente é um pacote Python instalável que implementa uma função de fábrica e que pode gerenciar recursos externos, seja através de uma biblioteca de componentes pré-construídos ou através de seus próprios lançadores personalizados - achamos que a API OpenAI Chat Completions é o nível certo de abstração para a maioria dos desenvolvedores que constroem ambientes, com OpenAI Completions como uma opção para a fração de casos que requerem um controle mais detalhado - achamos que os desenvolvedores de frameworks de treinadores e ambientes devem suportar o fardo de expor primitivas limpas e familiares para os construtores de ambientes, que refletem as experiências de desenvolvimento de construção de agentes estáticos ou avaliações - achamos que os ambientes de RL para LLMs trazem desafios únicos em comparação com eras anteriores de RL, e que as abstrações devem evoluir para levar isso em conta - achamos que os contêineres são importantes para muitos ambientes, mas não devem ser obrigatórios para ambientes que não precisam deles - achamos que construir esse ecossistema é um desafio global, exigindo discussões nuançadas e abertas entre as partes interessadas para garantir que todos possam se beneficiar passamos muito tempo pensando sobre essas questões, debatendo trade-offs, iterando e experimentando. se há algo que você precisa e que ainda não suportamos, ou sugestões sobre como podemos melhorar, estamos todos ouvidos :)
22,36K