Beberapa slide dari pembicaraan saya di konferensi @PyTorch awal minggu ini tentang pilihan desain verifikator dan bagaimana kami telah membangun ekosistem unggulan untuk lingkungan RL terbuka:)
Terutama: - kami berpikir bahwa enkapsulasi yang tepat untuk lingkungan adalah paket Python yang dapat diinstal yang mengimplementasikan fungsi pabrik, dan yang dapat mengelola sumber daya eksternal baik melalui perpustakaan komponen bawaan atau melalui peluncur kustomnya sendiri - kami berpikir bahwa OpenAI Chat Completions API adalah tingkat abstraksi yang tepat untuk sebagian besar pengembang membangun lingkungan, dengan OpenAI Completions sebagai opsi untuk sebagian kecil kasus yang membutuhkan kontrol yang lebih terperinci - Kami berpikir bahwa pelatih dan pengembang kerangka kerja lingkungan harus menanggung beban mengekspos primitif yang bersih dan akrab kepada pembangun lingkungan, yang mencerminkan pengalaman pengembangan membangun agen statis atau EVAL - kami berpikir bahwa lingkungan RL untuk LLM membawa tantangan unik vs era RL sebelumnya, dan bahwa abstraksi harus berkembang untuk memperhitungkan hal ini - Kami berpikir bahwa kontainer penting untuk banyak lingkungan, tetapi seharusnya tidak wajib untuk lingkungan yang tidak membutuhkannya - Kami berpikir bahwa membangun ekosistem ini adalah tantangan global, membutuhkan diskusi bernuansa dan terbuka di antara para pemangku kepentingan yang tertarik untuk memastikan bahwa semua orang dapat memperoleh manfaat Kami menghabiskan banyak waktu untuk memikirkan hal-hal ini, memperdebatkan pengorbanan, berulang, dan bereksperimen. Jika ada sesuatu yang Anda butuhkan yang belum kami dukung, atau saran tentang bagaimana kami dapat meningkatkan, kami semua didengar :)
21,63K