🪜Představujeme: StepWiser🦉 📝: - Přeformulovává postupné modelování odměn jako úlohu uvažování: výstupy CoT + úsudek. - Trénováno RL pomocí relativních výsledků zavádění. Výsledky: (1) Výkon SOTA na ProcessBench! (2) Zlepšuje politiku v době vlaku. (3) Vylepšuje vyhledávání v době odvozování. 🧵1/5
78,9K