Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡AUGE! ¡GRAN ACELERACIÓN DE LA IA!
Hot Rod AI: inferencia 100 veces más rápida, ¡100.000 veces menos potencia!
—
Revivir los circuitos analógicos: un salto hacia una IA ultraeficiente con atención en memoria
Comencé en la electrónica analógica cuando era niño y siempre pensé que las computadoras analógicas volverían. La computación analógica de las redes neuronales de la década de 1960 utilizaba circuitos basados en voltaje en lugar de relojes binarios.
Lo analógico es más rápido que lo digital
Los grandes modelos de lenguaje en su núcleo se encuentra la arquitectura transformadora, donde los mecanismos de autoatención examinan vastas secuencias de datos para predecir la próxima palabra o token.
En las GPU convencionales, el traslado de datos entre cachés de memoria y unidades de procesamiento consume tiempo y energía, lo que genera cuellos de botella en todo el sistema. Requieren un ciclo de reloj para mover con precisión los bits dentro y fuera de la memoria y los registros, y esto es >90% del tiempo y la sobrecarga de energía.
Pero ahora, un estudio innovador propone una configuración de computación en memoria personalizada que podría reducir estas ineficiencias, lo que podría remodelar la forma en que implementamos la IA generativa.
La innovación se centra en las "celdas de ganancia", memorias analógicas emergentes basadas en carga que funcionan como motores de almacenamiento y computación.
A diferencia de las GPU digitales, que cargan laboriosamente proyecciones de tokens desde la caché a SRAM para cada paso de generación, esta arquitectura mantiene los datos donde ocurren los cálculos: ¡JUSTO EN EL CHIP! Con una velocidad de reloj cercana a LA VELOCIDAD DE LA LUZ porque nunca se enciende / apaga como en el binario digital.
Al aprovechar las operaciones paralelas de productos de puntos analógicos, el diseño calcula la autoatención de forma nativa, evitando el movimiento de datos que afecta al hardware de la GPU.
Para cerrar la brecha entre los modelos digitales ideales y las realidades ruidosas de los circuitos analógicos, los investigadores idearon un algoritmo de inicialización inteligente.
Este método adapta los LLM preentrenados, como GPT-2, sin necesidad de un reentrenamiento completo, lo que garantiza una paridad de rendimiento perfecta a pesar de las no idealidades como las desviaciones de voltaje o los límites de precisión.
¡Los resultados son asombrosos!
...

Populares
Ranking
Favoritas