Un projet que je suis très heureux de voir publié, dirigé par @couplefire12 pendant son stage chez Together 🔥 Si vous êtes curieux de comprendre le raisonnement avec le RL dans des configurations non vérifiables, n'hésitez pas à jeter un œil !