några bilder från mitt föredrag på @PyTorch conf tidigare i veckan om designvalen för verifierare och hur vi har byggt flaggskeppsekosystemet för öppna RL-miljöer :)
Särskilt: - vi tror att den rätta inkapslingen för en miljö är ett installerbart Python-paket som implementerar en fabriksfunktion och som kan hantera externa resurser antingen via ett bibliotek med förbyggda komponenter eller via sina egna anpassade bärraketer - vi tror att OpenAI Chat Completions API är rätt abstraktionsnivå för de flesta utvecklare som bygger miljöer, med OpenAI Completions som ett alternativ för den bråkdel av fallen som kräver mer finkornig kontroll - Vi anser att utbildare och utvecklare av miljöramverk bör bära bördan av att exponera rena och välbekanta primitiver för miljöbyggare, vilket speglar utvecklingserfarenheterna av att bygga statiska agenter eller evals - vi tror att RL-miljöer för LLM medför unika utmaningar jämfört med tidigare epoker av RL, och att abstraktioner bör utvecklas för att ta hänsyn till detta - Vi tycker att containrar är viktiga för många miljöer, men inte bör vara obligatoriska för miljöer som inte behöver dem - Vi tror att det är en global utmaning att bygga detta ekosystem som kräver nyanserade och öppna diskussioner mellan intresserade intressenter för att säkerställa att alla kan dra nytta av det Vi ägnar mycket tid åt att tänka på det här, debattera kompromisser, iterera och experimentera. Om det är något du behöver som vi ännu inte stöder, eller förslag på hur vi kan förbättra oss, är vi idel öra :)
22,37K