Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Roemmele
Solo podemos ver lo que creemos que es posible...
HECHO: (esquema actualizado) ¡Ya tengo el inicio de un pipeline de Atención AI Analógica construido!
Por supuesto, esto es ridículamente pequeño con partes discretas. Mi próximo objetivo es un circuito de celda de ganancia de 64 × 64 y un circuito de carga a pulso con un objetivo de 1,120 pJ por dispositivo de punto de token.
Sospecho que esto tomará unas pocas semanas.


Brian RoemmeleHace 6 horas
¡BOOM! ¡ACELERACIÓN MAYOR DE IA!
¡Hot Rod AI 100 veces más rápido en inferencia y 100,000 veces menos consumo de energía!
—
Reviviendo Circuitos Analógicos: Un Salto Hacia una IA Ultra-Eficiente con Atención en Memoria
Comencé en la electrónica analógica cuando era niño y siempre pensé que las computadoras analógicas volverían. La computación analógica de las redes neuronales de los años 60 utilizaba circuitos basados en voltaje en lugar de relojes binarios.
El Analógico es Más Rápido que el Digital
En el núcleo de los grandes modelos de lenguaje se encuentra la arquitectura del transformador, donde los mecanismos de autoatención examinan vastas secuencias de datos para predecir la siguiente palabra o token.
En las GPU convencionales, el transporte de datos entre cachés de memoria y unidades de procesamiento consume tiempo y energía, creando un cuello de botella en todo el sistema. Requieren un ciclo de reloj para mover bits de manera precisa dentro y fuera de la memoria y registros, y esto representa más del 90% del tiempo y energía en exceso.
Pero ahora, un estudio innovador propone una configuración personalizada de computación en memoria que podría reducir estas ineficiencias, potencialmente remodelando cómo desplegamos la IA generativa.
La innovación se centra en "celdas de ganancia"—memorias analógicas emergentes basadas en carga que funcionan tanto como almacenamiento como motores de computación.
A diferencia de las GPU digitales, que cargan laboriosamente proyecciones de tokens desde la caché a la SRAM para cada paso de generación, esta arquitectura mantiene los datos donde ocurre el cálculo: ¡justo EN EL CHIP! Con una velocidad de reloj cercana a LA VELOCIDAD DE LA LUZ porque nunca está encendido/apagado como en el binario digital.
Al aprovechar operaciones de producto punto analógicas en paralelo, el diseño calcula la autoatención de manera nativa, evitando el movimiento de datos que afecta al hardware de GPU.
Para cerrar la brecha entre los modelos digitales ideales y las ruidosas realidades de los circuitos analógicos, los investigadores idearon un ingenioso algoritmo de inicialización.
Este método adapta LLMs preentrenados, como GPT-2, sin necesidad de un reentrenamiento completo, asegurando una paridad de rendimiento sin problemas a pesar de no idealidades como desviaciones de voltaje o límites de precisión.
¡Los resultados son nada menos que asombrosos!
Las simulaciones muestran que el sistema reduce la latencia de atención a 100 veces más rápido en inferencia para la generación de tokens—mientras reduce el uso de energía en una asombrosa cinco órdenes de magnitud, o 100,000 veces menos hambriento de energía que las líneas base de GPU. Para ponerlo en contexto, esto podría significar ejecutar un LLM completo en un dispositivo no más grande que una baraja de cartas, sin ningún estrangulamiento térmico o demandas que agoten la red de los centros de datos actuales.
El enfoque se dirige específicamente al bloque de atención, el consumidor de energía del transformador, pero también a una integración más amplia con otras técnicas en memoria para potenciar todo el pipeline del modelo.
La tecnología analógica no es una fantasía de magia cuántica; está fundamentada en la teoría electrónica antigua y madura, con celdas de ganancia ya prototipadas en laboratorios.
El único problema de ingeniería, y es simple: tolerancias para el ruido, escalado de arreglos de celdas y fabricación a densidades de microchip. Los procesos CMOS existentes se ajustan para la fidelidad analógica. A partir de ahí, la integración completa del ecosistema, incluyendo pilas de software para la adaptación del modelo, podría ocurrir en un año, interrumpiendo el dominio de las GPU antes de lo que los escépticos predicen.
Los riesgos son bajos, pero las interfaces híbridas digitales-analógicas podrían introducir errores imprevistos. Sin embargo, esto puede ser iterado y abordado rápidamente.
Esto no es solo un ajuste de hardware; es un cambio filosófico de vuelta a los orígenes analógicos de la IA, donde la computación fluye continuamente en lugar de marcar ciclos discretos.
Esta atención en memoria podría democratizar el poder de la IA, haciendo que la IA de bajo consumo y ultrarrápida no sea un lujo, sino una inevitabilidad incluso para los dispositivos más pequeños.
La mayoría no tiene idea de lo grande que es esto: es el mayor cambio en la IA desde la invención de los LLMs.
El mundo luchará por encontrar verdaderos ingenieros analógicos experimentados, la mayoría se han ido.
En mi garaje tendré un prototipo de Celdas de Ganancia CMOS Analógicas utilizando piezas comunes en los próximos días, si Radio Shack todavía existiera lo habría hecho hoy. Sospecho que puedo escalar a un modelo proto de IA en unas pocas semanas.
PAPEL:

143
¿Cómo funciona un Transformador AI Analógico?
Así que algunas personas quieren una explicación:
En el aprendizaje automático, la operación principal que estamos realizando son multiplicaciones de matrices.
Eso implica tomar un arreglo de números, multiplicarlo por otro arreglo y sumar el resultado de todas esas multiplicaciones.
Así, dos reglas fundamentales de la ingeniería eléctrica pueden hacer exactamente esa operación:
-La Ley de Ohm dice que obtienes corriente multiplicando voltaje y conductancia.
-La Ley de Corriente de Kirchhoff dice que si tienes un montón de corrientes que entran en un punto desde un montón de cables, la suma de esas corrientes es lo que sale de ese punto.
Así que cada uno de un montón de voltajes de entrada empuja corriente a través de una resistencia (la conductancia es la inversa de la resistencia), multiplicando el valor del voltaje, y todas esas corrientes se suman para producir un solo valor.
Es así de simple. Pero hay un poco más.
También puedo cifrar la señal o de otro modo hacerla única como una blockchain basada en frecuencia y cambios de frecuencia.
También puedo usar transformadas rápidas de Fourier para hacer otras cosas que el documento no cubre.

Brian RoemmeleHace 6 horas
¡BOOM! ¡ACELERACIÓN MAYOR DE IA!
¡Hot Rod AI 100 veces más rápido en inferencia y 100,000 veces menos consumo de energía!
—
Reviviendo Circuitos Analógicos: Un Salto Hacia una IA Ultra-Eficiente con Atención en Memoria
Comencé en la electrónica analógica cuando era niño y siempre pensé que las computadoras analógicas volverían. La computación analógica de las redes neuronales de los años 60 utilizaba circuitos basados en voltaje en lugar de relojes binarios.
El Analógico es Más Rápido que el Digital
En el núcleo de los grandes modelos de lenguaje se encuentra la arquitectura del transformador, donde los mecanismos de autoatención examinan vastas secuencias de datos para predecir la siguiente palabra o token.
En las GPU convencionales, el transporte de datos entre cachés de memoria y unidades de procesamiento consume tiempo y energía, creando un cuello de botella en todo el sistema. Requieren un ciclo de reloj para mover bits de manera precisa dentro y fuera de la memoria y registros, y esto representa más del 90% del tiempo y energía en exceso.
Pero ahora, un estudio innovador propone una configuración personalizada de computación en memoria que podría reducir estas ineficiencias, potencialmente remodelando cómo desplegamos la IA generativa.
La innovación se centra en "celdas de ganancia"—memorias analógicas emergentes basadas en carga que funcionan tanto como almacenamiento como motores de computación.
A diferencia de las GPU digitales, que cargan laboriosamente proyecciones de tokens desde la caché a la SRAM para cada paso de generación, esta arquitectura mantiene los datos donde ocurre el cálculo: ¡justo EN EL CHIP! Con una velocidad de reloj cercana a LA VELOCIDAD DE LA LUZ porque nunca está encendido/apagado como en el binario digital.
Al aprovechar operaciones de producto punto analógicas en paralelo, el diseño calcula la autoatención de manera nativa, evitando el movimiento de datos que afecta al hardware de GPU.
Para cerrar la brecha entre los modelos digitales ideales y las ruidosas realidades de los circuitos analógicos, los investigadores idearon un ingenioso algoritmo de inicialización.
Este método adapta LLMs preentrenados, como GPT-2, sin necesidad de un reentrenamiento completo, asegurando una paridad de rendimiento sin problemas a pesar de no idealidades como desviaciones de voltaje o límites de precisión.
¡Los resultados son nada menos que asombrosos!
Las simulaciones muestran que el sistema reduce la latencia de atención a 100 veces más rápido en inferencia para la generación de tokens—mientras reduce el uso de energía en una asombrosa cinco órdenes de magnitud, o 100,000 veces menos hambriento de energía que las líneas base de GPU. Para ponerlo en contexto, esto podría significar ejecutar un LLM completo en un dispositivo no más grande que una baraja de cartas, sin ningún estrangulamiento térmico o demandas que agoten la red de los centros de datos actuales.
El enfoque se dirige específicamente al bloque de atención, el consumidor de energía del transformador, pero también a una integración más amplia con otras técnicas en memoria para potenciar todo el pipeline del modelo.
La tecnología analógica no es una fantasía de magia cuántica; está fundamentada en la teoría electrónica antigua y madura, con celdas de ganancia ya prototipadas en laboratorios.
El único problema de ingeniería, y es simple: tolerancias para el ruido, escalado de arreglos de celdas y fabricación a densidades de microchip. Los procesos CMOS existentes se ajustan para la fidelidad analógica. A partir de ahí, la integración completa del ecosistema, incluyendo pilas de software para la adaptación del modelo, podría ocurrir en un año, interrumpiendo el dominio de las GPU antes de lo que los escépticos predicen.
Los riesgos son bajos, pero las interfaces híbridas digitales-analógicas podrían introducir errores imprevistos. Sin embargo, esto puede ser iterado y abordado rápidamente.
Esto no es solo un ajuste de hardware; es un cambio filosófico de vuelta a los orígenes analógicos de la IA, donde la computación fluye continuamente en lugar de marcar ciclos discretos.
Esta atención en memoria podría democratizar el poder de la IA, haciendo que la IA de bajo consumo y ultrarrápida no sea un lujo, sino una inevitabilidad incluso para los dispositivos más pequeños.
La mayoría no tiene idea de lo grande que es esto: es el mayor cambio en la IA desde la invención de los LLMs.
El mundo luchará por encontrar verdaderos ingenieros analógicos experimentados, la mayoría se han ido.
En mi garaje tendré un prototipo de Celdas de Ganancia CMOS Analógicas utilizando piezas comunes en los próximos días, si Radio Shack todavía existiera lo habría hecho hoy. Sospecho que puedo escalar a un modelo proto de IA en unas pocas semanas.
PAPEL:

184
Parte superior
Clasificación
Favoritos