Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Přechod z VLLM V0 na V1 způsobil pád našeho asynchronního školení RL! Přečtěte si, jak jsme to opravili
Nedávno jsme migrovali z verze v0 na verzi 1 v rámci většího refaktoringu služby Prime-RL, aby byla snadněji použitelná, výkonnější a přirozeně asynchronní. Potvrdili jsme správnou dynamiku tréninku při mnoha menších bězích, ale při pokusu o reprodukci běhu ve větším měřítku, který před refaktorem probíhal bez problémů, jsme narazili na zeď. Konkrétně trénování DeepSeek-R1-Distill-Qwen-1.5B na jednootáčkových matematických problémech z naší matematické datové sady INTELLECT-2 v 8k kontextu s dvoustupňovým zpožděním mimo politiku by fatálně zhroutilo zhruba 400 kroků do trénování

38,09K
Top
Hodnocení
Oblíbené