así que eliges la muerte
Para responder a nivel de objeto @TheZvi Técnicamente, DSA podría ser un salto importante que hace que los contextos a escala de Gemini sean trivialmente baratos, incluso para modelos de generaciones anteriores. Advertencias: - no estamos seguros *si* escala a 1M+ (pero V3.2 exp≥V3.1 a pesar de un preentrenamiento idéntico, y V3.2>> exp, así que es muy probable que sí) - no estamos seguros de cómo se puede entrenar sin arrancar desde la atención densa. Quizás DeepSeek lo sepa. Creo que V4 no usará DSA, se llama explícitamente un prototipo. En el peor de los casos, también es sensato preentrenar con atención completa => extender => esparcir, se incurre en más costos en el preentrenamiento para una inferencia permanentemente más barata. - Kimi's KDA o Qwen's GDN+ o algo así podría ser incluso mejor que DSA+/NSA+ Modulo estas advertencias, esto no es una reducción de precio de 2x, estoy siendo sarcástico. Más bien como 10x. La atención dispersa que no se degrada es un gran problema. En cuanto a la velocidad, es un punto vacío desde la perspectiva del modelo. DeepSeek no está interesado en proporcionar el mejor producto. Sirven con lotes masivos de H800s/Ascends. Puedes ponerlo en hardware americano y obtener 60-150 t/s, o en Cerebras y obtener GLM-like 1000 t/s, sin aumentar el costo. Esta arquitectura es inherentemente rápida (atención superficial y barata), solo que DeepSeek la sirve lentamente. Sobre la inteligencia de frontera, estoy diciendo que estas ventajas de «maximización de uso» de la frontera – principalmente codificación agente, pero puedes cubrir más dominios de la misma manera – son un producto del gasto computacional en pasos de RL y en iterar a través de entornos sintéticos. Tienen la receta. Informan que ≈10% del costo de preentrenamiento se gastó en Speciale. Eso es ≈$600K. Grok 4 supuestamente usó el 100% de Grok 3, o decenas-cientos millones. Ha sido claramente muy ineficiente con Grok, pero creo que DeepSeek podría llegar al 100% fácilmente, la receta es conocida. Probablemente no quieren desperdiciarlo en una base obsoleta, ya que notan que sigue siendo un cuello de botella de conocimiento. Encuentro divertido la actitud despreocupada hacia el rendimiento matemático de grado IMO (o resolver problemas de Erdos en cero disparos al nivel que el solucionador humano dice «sí, eso es básicamente mi solución»). ¿No se suponía que todos debíamos esperar AGI de la investigación matemática independiente? O solo se trata de codificación ahora. Arguiblemente, esa es la capacidad más interesante para estimar las velocidades de despegue. Pero lo que sea, yo creo en un despegue lento, la auto-mejora se encontrará con problemas logísticos sin importar dónde empecemos. La principal contribución aquí, como he dicho, es que anuncian la creencia de que fundamentalmente han resuelto el entrenamiento de LLMs de frontera para finales de 2025 como un programa de investigación, y podrían llegar al nivel occidental actual o más allá solo con invertir más computación (más pequeños ajustes en torno a la eficiencia de tokens). En teoría, su anuncio de estar mirando hacia un entrenamiento a mayor escala al final puede interpretarse como «y eso es lo que estamos haciendo ahora». Pero eso queda por verse.
@TheZvi > a pesar de un preentrenamiento y un postentrenamiento idénticos, corrección
4,11K