alguns slides da minha palestra na @PyTorch conf no início desta semana sobre as escolhas de design dos verificadores e como estamos construindo o ecossistema principal para ambientes de RL aberta :)
notavelmente: - achamos que o encapsulamento certo para um ambiente é um pacote Python instalável que implementa uma função de fábrica e que pode gerenciar recursos externos por meio de uma biblioteca de componentes pré-construídos ou por meio de seus próprios lançadores personalizados - achamos que a API OpenAI Chat Completions é o nível certo de abstração para a maioria dos desenvolvedores que criam ambientes, com o OpenAI Completions como uma opção para a fração de casos que exigem um controle mais refinado - Achamos que os desenvolvedores de instrutores e estruturas de ambiente devem arcar com o ônus de expor primitivos limpos e familiares aos construtores de ambientes, que refletem as experiências de desenvolvimento de construir agentes estáticos ou avaliações - achamos que os ambientes de RL para LLMs trazem desafios únicos em relação às eras anteriores de RL, e que as abstrações devem evoluir para levar isso em conta - Achamos que os contêineres são importantes para muitos ambientes, mas não devem ser obrigatórios para ambientes que não precisam deles - Acreditamos que a construção desse ecossistema é um desafio global, exigindo discussões abertas e diferenciadas entre as partes interessadas para garantir que todos possam se beneficiar passamos muito tempo pensando sobre essas coisas, debatendo compensações, iterando e experimentando. Se há algo que você precisa que ainda não apoiamos, ou sugestões sobre como podemos melhorar, estamos todos ouvidos :)
22,36K