kilka slajdów z mojej prezentacji na konferencji @PyTorch w tym tygodniu na temat wyborów projektowych weryfikatorów i tego, jak budowaliśmy flagowy ekosystem dla otwartych środowisk RL :)
w szczególności: - uważamy, że odpowiednie opakowanie dla środowiska to instalowalny pakiet Pythona, który implementuje funkcję fabryczną i który może zarządzać zasobami zewnętrznymi, zarówno za pomocą biblioteki wstępnie zbudowanych komponentów, jak i za pomocą własnych niestandardowych launcherów - uważamy, że OpenAI Chat Completions API to odpowiedni poziom abstrakcji dla większości deweloperów budujących środowiska, z OpenAI Completions jako opcją dla niewielkiej liczby przypadków wymagających bardziej szczegółowej kontroli - uważamy, że deweloperzy frameworków trenerskich i środowiskowych powinni ponosić ciężar udostępniania czystych i znanych prymitywów dla budowniczych środowisk, które odzwierciedlają doświadczenia rozwoju statycznych agentów lub ewaluacji - uważamy, że środowiska RL dla LLM niosą unikalne wyzwania w porównaniu do poprzednich er RL, i że abstrakcje powinny ewoluować, aby uwzględnić to - uważamy, że kontenery są ważne dla wielu środowisk, ale nie powinny być obowiązkowe dla środowisk, które ich nie potrzebują - uważamy, że budowanie tego ekosystemu to globalne wyzwanie, wymagające zniuansowanych i otwartych dyskusji wśród zainteresowanych stron, aby zapewnić, że wszyscy mogą skorzystać spędzamy dużo czasu na myśleniu o tych sprawach, debatowaniu nad kompromisami, iterowaniu i eksperymentowaniu. jeśli jest coś, czego potrzebujesz, a czego jeszcze nie wspieramy, lub masz sugestie, jak możemy się poprawić, jesteśmy otwarci na propozycje :)
22,35K