quelques diapositives de ma présentation à la conf @PyTorch plus tôt cette semaine sur les choix de conception des vérificateurs et comment nous avons construit l'écosystème phare pour les environnements RL ouverts :)
notamment : - nous pensons que la bonne encapsulation pour un environnement est un package Python installable qui implémente une fonction de fabrique, et qui peut gérer des ressources externes soit via une bibliothèque de composants préconstruits, soit via ses propres lanceurs personnalisés - nous pensons que l'API OpenAI Chat Completions est le bon niveau d'abstraction pour la plupart des développeurs construisant des environnements, avec OpenAI Completions comme option pour la fraction de cas nécessitant un contrôle plus fin - nous pensons que les développeurs de cadres de formateurs et d'environnements devraient porter le fardeau d'exposer des primitives claires et familières aux constructeurs d'environnements, qui reflètent les expériences de développement de la construction d'agents statiques ou d'évaluations - nous pensons que les environnements RL pour les LLM apportent des défis uniques par rapport aux époques précédentes du RL, et que les abstractions devraient évoluer pour tenir compte de cela - nous pensons que les conteneurs sont importants pour de nombreux environnements, mais ne devraient pas être obligatoires pour les environnements qui n'en ont pas besoin - nous pensons que construire cet écosystème est un défi mondial, nécessitant des discussions nuancées et ouvertes entre les parties prenantes intéressées pour s'assurer que tout le monde puisse en bénéficier nous passons beaucoup de temps à réfléchir à ces sujets, à débattre des compromis, à itérer et à expérimenter. si vous avez besoin de quelque chose que nous ne supportons pas encore, ou des suggestions sur la façon dont nous pouvons nous améliorer, nous sommes à l'écoute :)
22,35K