một số slide từ bài nói chuyện của tôi tại hội nghị @PyTorch vào đầu tuần này về các lựa chọn thiết kế của các trình xác minh và cách chúng tôi đã xây dựng hệ sinh thái hàng đầu cho các môi trường RL mở :)
đáng chú ý: - chúng tôi nghĩ rằng việc đóng gói đúng cho một môi trường là một gói Python có thể cài đặt, thực hiện một hàm factory, và có thể quản lý các tài nguyên bên ngoài thông qua một thư viện các thành phần đã được xây dựng sẵn hoặc thông qua các trình khởi động tùy chỉnh của riêng nó - chúng tôi nghĩ rằng OpenAI Chat Completions API là mức độ trừu tượng đúng cho hầu hết các nhà phát triển xây dựng môi trường, với OpenAI Completions như một tùy chọn cho một phần nhỏ các trường hợp yêu cầu kiểm soát chi tiết hơn - chúng tôi nghĩ rằng các nhà phát triển khung huấn luyện và môi trường nên gánh vác trách nhiệm cung cấp các nguyên tắc rõ ràng và quen thuộc cho những người xây dựng môi trường, phản ánh trải nghiệm phát triển của việc xây dựng các tác nhân tĩnh hoặc đánh giá - chúng tôi nghĩ rằng các môi trường RL cho LLM mang đến những thách thức độc đáo so với các thời kỳ trước của RL, và rằng các trừu tượng nên phát triển để tính đến điều này - chúng tôi nghĩ rằng các container là quan trọng cho nhiều môi trường, nhưng không nên là bắt buộc cho những môi trường không cần chúng - chúng tôi nghĩ rằng việc xây dựng hệ sinh thái này là một thách thức toàn cầu, yêu cầu các cuộc thảo luận tinh tế và cởi mở giữa các bên liên quan để đảm bảo rằng mọi người đều có thể hưởng lợi chúng tôi dành rất nhiều thời gian để suy nghĩ về những điều này, tranh luận về các sự đánh đổi, lặp đi lặp lại và thử nghiệm. nếu có điều gì bạn cần mà chúng tôi chưa hỗ trợ, hoặc có đề xuất về cách chúng tôi có thể cải thiện, chúng tôi luôn sẵn sàng lắng nghe :)
22,36K