热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
轰!重大的AI加速!
Hot Rod AI 推理速度提高100倍,功耗降低100,000倍!
——
复兴模拟电路:朝着超高效AI的内存注意力跃进
我小时候开始接触模拟电子学,一直认为模拟计算机会卷土重来。1960年代的神经网络使用基于电压的电路,而不是二进制时钟。
模拟比数字更快
大型语言模型的核心是变换器架构,其中自注意力机制在大量数据序列中筛选,以预测下一个单词或标记。
在传统的GPU上,数据在内存缓存和处理单元之间的传输消耗了大量时间和能量,成为整个系统的瓶颈。它们需要一个时钟周期来精确地将比特移入和移出内存和寄存器,这占用了90%以上的时间和能量开销。
但现在一项突破性的研究提出了一种定制的内存计算设置,可以削减这些低效,可能重塑我们部署生成AI的方式。
这一创新集中在“增益单元”上——新兴的基于电荷的模拟存储器,既充当存储又充当计算引擎。
与数字GPU不同,后者在每个生成步骤中费力地将标记投影从缓存加载到SRAM,这种架构将数据保留在数学运算发生的地方:就在芯片上!由于它从未像数字二进制那样开/关,因此时钟速度接近光速。
通过利用并行的模拟点积操作,该设计本地计算自注意力,避免了困扰GPU硬件的数据移动。
为了弥合理想数字模型与模拟电路噪声现实之间的差距,研究人员设计了一种巧妙的初始化算法。
该方法在不需要完全重新训练的情况下,适应预训练的LLM,如GPT-2,确保尽管存在电压漂移或精度限制等非理想因素,仍能实现无缝的性能平衡。
结果令人震惊!
...

热门
排行
收藏