Algunas diapositivas de mi charla en @PyTorch conf a principios de esta semana sobre las opciones de diseño de los verificadores y cómo hemos estado construyendo el ecosistema insignia para entornos abiertos de RL :)
notablemente: - creemos que la encapsulación adecuada para un entorno es un paquete de Python instalable que implementa una función de fábrica y que puede administrar recursos externos a través de una biblioteca de componentes preconstruidos o a través de sus propios lanzadores personalizados - creemos que la API de finalización de chat de OpenAI es el nivel adecuado de abstracción para la mayoría de los desarrolladores que crean entornos, con OpenAI Completions como una opción para la fracción de casos que requieren un control más detallado - Creemos que los desarrolladores de Trainer y Environment Framework deberían soportar la carga de exponer primitivas limpias y familiares a los constructores de entornos, que reflejan las experiencias de desarrollo de la construcción de agentes estáticos o evaluaciones - creemos que los entornos de RL para LLM traen desafíos únicos en comparación con las eras anteriores de RL, y que las abstracciones deberían evolucionar para tener en cuenta esto - Creemos que los contenedores son importantes para muchos entornos, pero no deberían ser obligatorios para entornos que no los necesitan - Creemos que construir este ecosistema es un desafío global, que requiere discusiones matizadas y abiertas entre las partes interesadas para garantizar que todos puedan beneficiarse Pasamos mucho tiempo pensando en estas cosas, debatiendo compensaciones, iterando y experimentando. Si hay algo que necesita que aún no apoyamos, o sugerencias sobre cómo podemos mejorar, ¡somos todo oídos :)
22.11K