Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
некоторые слайды из моего выступления на конференции @PyTorch ранее на этой неделе о дизайнерских решениях верификаторов и о том, как мы строим флагманскую экосистему для открытых RL-окружений :)




в частности:
- мы считаем, что правильной упаковкой для окружения является устанавливаемый пакет Python, который реализует фабричную функцию и может управлять внешними ресурсами либо через библиотеку предварительно собранных компонентов, либо через собственные пользовательские загрузчики
- мы считаем, что API OpenAI Chat Completions является правильным уровнем абстракции для большинства разработчиков, создающих окружения, с OpenAI Completions в качестве опции для небольшого числа случаев, требующих более тонкого контроля
- мы считаем, что разработчики тренеров и фреймворков окружений должны взять на себя ответственность за предоставление чистых и знакомых примитивов для строителей окружений, которые отражают опыт разработки статических агентов или оценок
- мы считаем, что RL-окружения для LLM представляют собой уникальные проблемы по сравнению с предыдущими эпохами RL, и что абстракции должны развиваться, чтобы учитывать это
- мы считаем, что контейнеры важны для многих окружений, но не должны быть обязательными для окружений, которые в них не нуждаются
- мы считаем, что создание этой экосистемы является глобальной задачей, требующей тонких и открытых обсуждений среди заинтересованных сторон, чтобы гарантировать, что все могут извлечь выгоду
мы тратим много времени на размышления об этом, обсуждение компромиссов, итерации и эксперименты. если вам что-то нужно, что мы еще не поддерживаем, или у вас есть предложения о том, как мы можем улучшиться, мы всегда готовы выслушать :)
22,36K
Топ
Рейтинг
Избранное

