Přechod z VLLM V0 na V1 způsobil pád našeho asynchronního školení RL! Přečtěte si, jak jsme to opravili Nedávno jsme migrovali z verze v0 na verzi 1 v rámci většího refaktoringu služby Prime-RL, aby byla snadněji použitelná, výkonnější a přirozeně asynchronní. Potvrdili jsme správnou dynamiku tréninku při mnoha menších bězích, ale při pokusu o reprodukci běhu ve větším měřítku, který před refaktorem probíhal bez problémů, jsme narazili na zeď. Konkrétně trénování DeepSeek-R1-Distill-Qwen-1.5B na jednootáčkových matematických problémech z naší matematické datové sady INTELLECT-2 v 8k kontextu s dvoustupňovým zpožděním mimo politiku by fatálně zhroutilo zhruba 400 kroků do trénování
38,09K