algunas diapositivas de mi charla en la conferencia @PyTorch a principios de esta semana sobre las decisiones de diseño de los verificadores y cómo hemos estado construyendo el ecosistema insignia para entornos de RL abiertos :)
notablemente: - pensamos que la encapsulación adecuada para un entorno es un paquete de Python instalable que implemente una función de fábrica, y que pueda gestionar recursos externos ya sea a través de una biblioteca de componentes preconstruidos o mediante sus propios lanzadores personalizados - creemos que la API de OpenAI Chat Completions es el nivel de abstracción adecuado para la mayoría de los desarrolladores que construyen entornos, siendo OpenAI Completions una opción para la fracción de casos que requieren un control más detallado - pensamos que los desarrolladores de marcos de entrenamiento y entornos deberían asumir la carga de exponer primitivas limpias y familiares a los constructores de entornos, que reflejen las experiencias de desarrollo de construir agentes estáticos o evaluaciones - creemos que los entornos de RL para LLMs traen desafíos únicos en comparación con eras anteriores de RL, y que las abstracciones deberían evolucionar para tener en cuenta esto - pensamos que los contenedores son importantes para muchos entornos, pero no deberían ser obligatorios para aquellos que no los necesitan - creemos que construir este ecosistema es un desafío global, que requiere discusiones matizadas y abiertas entre las partes interesadas para asegurar que todos puedan beneficiarse pasamos mucho tiempo pensando en estas cosas, debatiendo compensaciones, iterando y experimentando. si hay algo que necesitas y que aún no soportamos, o sugerencias sobre cómo podemos mejorar, estamos atentos :)
22,36K