einige Folien von meinem Vortrag auf der @PyTorch-Konferenz earlier diese Woche über die Designentscheidungen von Verifizierern und wie wir das Flaggschiff-Ökosystem für offene RL-Umgebungen aufgebaut haben :)
insbesondere: - wir denken, dass die richtige Kapselung für eine Umgebung ein installierbares Python-Paket ist, das eine Fabrikfunktion implementiert und externe Ressourcen entweder über eine Bibliothek vorgefertigter Komponenten oder über eigene benutzerdefinierte Launcher verwalten kann - wir denken, dass die OpenAI Chat Completions API die richtige Abstraktionsebene für die meisten Entwickler ist, die Umgebungen erstellen, wobei OpenAI Completions als Option für die wenigen Fälle dient, die eine feinere Kontrolle erfordern - wir denken, dass Entwickler von Trainern und Umgebungsframeworks die Verantwortung tragen sollten, saubere und vertraute Primitiven für Umgebungsbauer bereitzustellen, die den Entwicklungserfahrungen beim Erstellen statischer Agenten oder Auswertungen entsprechen - wir denken, dass RL-Umgebungen für LLMs einzigartige Herausforderungen im Vergleich zu früheren Epochen des RL mit sich bringen und dass Abstraktionen sich weiterentwickeln sollten, um dies zu berücksichtigen - wir denken, dass Container für viele Umgebungen wichtig sind, aber nicht zwingend für Umgebungen, die sie nicht benötigen - wir denken, dass der Aufbau dieses Ökosystems eine globale Herausforderung ist, die nuancierte und offene Diskussionen unter interessierten Stakeholdern erfordert, um sicherzustellen, dass alle profitieren können wir verbringen viel Zeit damit, über diese Dinge nachzudenken, Kompromisse zu diskutieren, zu iterieren und zu experimentieren. Wenn es etwas gibt, das Sie benötigen und das wir noch nicht unterstützen, oder Vorschläge, wie wir uns verbessern können, sind wir ganz Ohr :)
22,11K