Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¡Pasar de VLLM v0 a v1 hizo que nuestro entrenamiento RL asíncrono se bloqueara! Lea cómo lo solucionamos Recientemente migramos de v0 a v1 como parte de una refactorización más grande de prime-rl para que sea más fácil de usar, más eficaz y naturalmente asíncrono. Confirmamos la dinámica de entrenamiento correcta en muchas carreras a menor escala, pero nos topamos con una pared al intentar reproducir una carrera a mayor escala que se ejecutó sin problemas antes de la refactorización. Específicamente, entrenar DeepSeek-R1-Distill-Qwen-1.5B en problemas matemáticos de un solo turno de nuestro conjunto de datos matemáticos INTELLECT-2 en un contexto de 8k con un retraso de dos pasos fuera de la política se bloquearía fatalmente aproximadamente 400 pasos en el entrenamiento

40.29K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas