🪜Vi presenterar: StepWiser🦉 📝: - Omformulerar stegvis belöningsmodellering som en resonemangsuppgift: ger CoT + bedömning. - Tränad av RL med hjälp av relativa resultat av utrullningar. Resultat: (1) SOTA-prestanda på ProcessBench! (2) Förbättrar policyn vid tågtid. (3) Förbättrar sökning efter inferenstid. 🧵Plats 1/5