我很高興看到這個項目發布,由 @couplefire12 在 Together 實習期間主導 🔥 如果你對在不可驗證的環境中使用強化學習的推理感到好奇,請務必看看!