Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Las tres últimas publicaciones de DeepSeek están firmadas todas por Liang Wenfeng, y el contenido de los artículos es muy interesante.
Especialmente aquel que habla sobre Engram, donde DeepSeek prácticamente le dio al modelo un "diccionario" para el examen, liberando así la capacidad de memoria para resolver problemas difíciles.
Pero descubrieron que si el modelo se basa completamente en la memoria (Engram), se convierte en un empollón que solo memoriza, sin capacidad de pensar.
Sin embargo, si se basa únicamente en la inferencia (MOE), se desperdicia una gran cantidad de potencia de cálculo para deducir conocimientos fijos como "¿Cuál es la capital de China?".
Entonces, ¿cuánta memoria se necesita para el examen?
DeepSeek ha investigado una proporción dorada de "memoria" y "pensamiento" para el modelo.
La mejor proporción medida al final fue: 75% para el pensamiento, 25% para la memoria.
Esta conclusión puede no solo aplicarse a los modelos, sino que también merece la pena reflexionar para los humanos.
Cuando una persona recuerda todos los detalles, prácticamente no tiene espacio para pensar.
El pensamiento lógico y la adecuada abstracción son la fuente del progreso humano.
Cuando una persona no tiene conocimiento alguno, solo desperdicia energía mental pensando en las cosas más básicas, haciendo un esfuerzo mental en vano.
DeepSeek midió que, al añadir el diccionario y reducir el pensamiento, el modelo ganó una profundidad de pensamiento equivalente a 7 capas de red.
No se esperaba que la amplitud del conocimiento aumentara la profundidad del pensamiento de esta manera.
Es muy inspirador.
Parte superior
Clasificación
Favoritos
