Декілька слайдів з моєї доповіді на конференції @PyTorch початку цього тижня про вибір дизайну верифікаторів і про те, як ми будуємо флагманську екосистему для відкритих RL-середовищ :)
Зокрема: - ми вважаємо, що правильна інкапсуляція для середовища — це встановлений пакет Python, який реалізує заводську функцію та може керувати зовнішніми ресурсами або за допомогою бібліотеки попередньо зібраних компонентів, або за допомогою власних користувацьких лаунчерів - ми вважаємо, що OpenAI Chat Completions API є правильним рівнем абстракції для більшості розробників, які створюють середовища, а OpenAI Completions є варіантом для частки випадків, що вимагають більш тонкого контролю - Ми вважаємо, що розробники трейлерів та фреймворків середовища повинні нести тягар надання чистих та знайомих примітивів будівельникам середовища, які відображають досвід розробки статичних агентів або evals - ми вважаємо, що середовища RL для LLM приносять унікальні виклики порівняно з попередніми епохами RL, і що абстракції повинні розвиватися, щоб врахувати це. - Ми вважаємо, що контейнери важливі для багатьох середовищ, але не повинні бути обов'язковими для середовищ, яким вони не потрібні - Ми вважаємо, що побудова цієї екосистеми є глобальним викликом, який вимагає детальних і відкритих дискусій між зацікавленими сторонами, щоб гарантувати, що кожен може отримати вигоду Ми витрачаємо багато часу на роздуми про це, обговорення компромісів, ітерації та експерименти. Якщо вам потрібно щось, що ми ще не підтримуємо, або пропозиції щодо того, як ми можемо вдосконалюватися, ми всі :)
22,35K