Entrenar a los LLM de principio a fin es difícil. Muy emocionado de compartir nuestro nuevo blog (¿libro?) que cubre el proceso completo: pre-entrenamiento, post-entrenamiento e infraestructura. 200+ páginas de lo que funcionó, lo que no funcionó y cómo hacer que funcione de manera confiable
> construir un nuevo modelo fundamental es órdenes de magnitud más difícil que ajustar un modelo abierto y optimizar la inferencia.
Es un poco salvaje lo poco discutido que es que la mayoría de las startups (incluso las bien financiadas) no pueden construir sus propios modelos de fundación y dependen de los laboratorios chinos de frontera que abren los suyos.
La razón por la que Cursor y Windsurf lanzaron modelos optimizados para la velocidad es porque es mucho más factible que construir un modelo fundamental que empuje la inteligencia
1. Tome qwen3 y ajústelo a través de RL en su arnés
2. Colóquelo en el hardware Cerebras (o GPU optimizada)
3. Deje que ese modelo medianamente inteligente y súper rápido se cocine
Para las empresas de agentes de codificación, si desea aportar algo de valor al mercado, construir un nuevo modelo fundamental es órdenes de magnitud más difícil que ajustar un modelo abierto y optimizar la inferencia.
francamente, es la forma eficiente de lanzar algo que se acerca a la frontera de Pareto y me gusta que las empresas de agentes de codificación estén comenzando a participar.
Pero no confunda esto con las empresas de agentes de codificación que declaran "medianamente inteligentes pero rápidas > muy inteligentes pero lentas"