我在本週早些時候於 @PyTorch 會議上演講的一些幻燈片,內容關於驗證者的設計選擇以及我們如何建立開放強化學習環境的旗艦生態系統 :)
特別是: - 我們認為,適合環境的封裝是一個可安裝的 Python 套件,該套件實現了一個工廠函數,並且可以通過預構建組件的庫或其自定義啟動器來管理外部資源。 - 我們認為,OpenAI Chat Completions API 是大多數開發者構建環境的正確抽象層次,OpenAI Completions 是需要更細粒度控制的少數情況的選擇。 - 我們認為,訓練器和環境框架的開發者應該承擔向環境構建者暴露乾淨且熟悉的原語的責任,這些原語反映了構建靜態代理或評估的開發體驗。 - 我們認為,針對 LLM 的強化學習環境帶來了與之前強化學習時代不同的獨特挑戰,抽象應該隨之演變以考慮這一點。 - 我們認為,容器對於許多環境來說很重要,但對於不需要它們的環境來說不應該是強制性的。 - 我們認為,構建這個生態系統是一個全球挑戰,需要相關利益相關者之間進行細緻和開放的討論,以確保每個人都能受益。 我們花了很多時間思考這些問題,辯論權衡,迭代和實驗。如果有我們尚未支持的需求,或對我們如何改進的建議,我們隨時歡迎 :)
22.11K