一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

轰！重大的AI加速！ Hot Rod AI 推理速度提高100倍，功耗降低100,000倍！ —— 复兴模拟电路：朝着超高效AI的内存注意力跃进我小时候开始接触模拟电子学，一直认为模拟计算机会卷土重来。1960年代的神经网络使用基于电压的电路，而不是二进制时钟。模拟比数字更快大型语言模型的核心是变换器架构，其中自注意力机制在大量数据序列中筛选，以预测下一个单词或标记。在传统的GPU上，数据在内存缓存和处理单元之间的传输消耗了大量时间和能量，成为整个系统的瓶颈。它们需要一个时钟周期来精确地将比特移入和移出内存和寄存器，这占用了90%以上的时间和能量开销。但现在一项突破性的研究提出了一种定制的内存计算设置，可以削减这些低效，可能重塑我们部署生成AI的方式。这一创新集中在“增益单元”上——新兴的基于电荷的模拟存储器，既充当存储又充当计算引擎。与数字GPU不同，后者在每个生成步骤中费力地将标记投影从缓存加载到SRAM，这种架构将数据保留在数学运算发生的地方：就在芯片上！由于它从未像数字二进制那样开/关，因此时钟速度接近光速。通过利用并行的模拟点积操作，该设计本地计算自注意力，避免了困扰GPU硬件的数据移动。为了弥合理想数字模型与模拟电路噪声现实之间的差距，研究人员设计了一种巧妙的初始化算法。该方法在不需要完全重新训练的情况下，适应预训练的LLM，如GPT-2，确保尽管存在电压漂移或精度限制等非理想因素，仍能实现无缝的性能平衡。结果令人震惊！ ...