轰!重大的AI加速! Hot Rod AI 推理速度提高100倍,功耗降低100,000倍! —— 复兴模拟电路:朝着超高效AI的内存注意力跃进 我小时候开始接触模拟电子学,一直认为模拟计算机会卷土重来。1960年代的神经网络使用基于电压的电路,而不是二进制时钟。 模拟比数字更快 大型语言模型的核心是变换器架构,其中自注意力机制在大量数据序列中筛选,以预测下一个单词或标记。 在传统的GPU上,数据在内存缓存和处理单元之间的传输消耗了大量时间和能量,成为整个系统的瓶颈。它们需要一个时钟周期来精确地将比特移入和移出内存和寄存器,这占用了90%以上的时间和能量开销。 但现在一项突破性的研究提出了一种定制的内存计算设置,可以削减这些低效,可能重塑我们部署生成AI的方式。 这一创新集中在“增益单元”上——新兴的基于电荷的模拟存储器,既充当存储又充当计算引擎。 与数字GPU不同,后者在每个生成步骤中费力地将标记投影从缓存加载到SRAM,这种架构将数据保留在数学运算发生的地方:就在芯片上!由于它从未像数字二进制那样开/关,因此时钟速度接近光速。 通过利用并行的模拟点积操作,该设计本地计算自注意力,避免了困扰GPU硬件的数据移动。 为了弥合理想数字模型与模拟电路噪声现实之间的差距,研究人员设计了一种巧妙的初始化算法。 该方法在不需要完全重新训练的情况下,适应预训练的LLM,如GPT-2,确保尽管存在电压漂移或精度限制等非理想因素,仍能实现无缝的性能平衡。 结果令人震惊! ...