некоторые слайды из моего выступления на конференции @PyTorch ранее на этой неделе о дизайнерских решениях верификаторов и о том, как мы строим флагманскую экосистему для открытых RL-окружений :)
в частности: - мы считаем, что правильной упаковкой для окружения является устанавливаемый пакет Python, который реализует фабричную функцию и может управлять внешними ресурсами либо через библиотеку предварительно собранных компонентов, либо через собственные пользовательские загрузчики - мы считаем, что API OpenAI Chat Completions является правильным уровнем абстракции для большинства разработчиков, создающих окружения, с OpenAI Completions в качестве опции для небольшого числа случаев, требующих более тонкого контроля - мы считаем, что разработчики тренеров и фреймворков окружений должны взять на себя ответственность за предоставление чистых и знакомых примитивов для строителей окружений, которые отражают опыт разработки статических агентов или оценок - мы считаем, что RL-окружения для LLM представляют собой уникальные проблемы по сравнению с предыдущими эпохами RL, и что абстракции должны развиваться, чтобы учитывать это - мы считаем, что контейнеры важны для многих окружений, но не должны быть обязательными для окружений, которые в них не нуждаются - мы считаем, что создание этой экосистемы является глобальной задачей, требующей тонких и открытых обсуждений среди заинтересованных сторон, чтобы гарантировать, что все могут извлечь выгоду мы тратим много времени на размышления об этом, обсуждение компромиссов, итерации и эксперименты. если вам что-то нужно, что мы еще не поддерживаем, или у вас есть предложения о том, как мы можем улучшиться, мы всегда готовы выслушать :)
22,36K