一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Kangwook Lee

威斯康星大学麦迪逊分校 / 克拉夫顿 AI

DLLMs 看起来很有前景……但并行生成并不总是可能的基于扩散的 LLM 可以同时在不同位置生成多个标记，而大多数自回归 LLM 是一个一个地生成标记。这使得基于扩散的 LLM 在我们需要快速生成且计算量较少时非常有吸引力。一个大问题是……在不失去建模准确性的情况下，是否可以进行并行生成？答案是否定的。我们可以实现的并行性有基本的限制。考虑这个例子： “从以下四个城市中均匀随机选择一个城市：纽约、新奥尔良、墨西哥城或巴拿马城。” 然后， P(Y₁ = New, Y₂ = York) = 1/4， P(Y₁ = New, Y₂ = Orleans) = 1/4，等等。因此，P(Y₁ = New) = 1/2，P(Y₂ = City) = 1/2。如果你选择并行生成 Y₁ 和 Y₂，无论你使用什么解码算法…… 你注定会抽样出“New City”。今天的 DLLMs 没有一个可以在不放弃并行性的情况下正确生成这两个词。 ----- 为什么会这样？事实上，我们从未训练 LLM 学习在一次前向迭代中多个标记的联合分布。我们总是教一个基于上下文的单标记边际分布。（自回归模型也是如此。）因此，只有在这些标记在当前上下文下是相互独立的情况下，才能同时抽样多个标记。而这种并行抽样的限制可以被精确地形式化。可以推导出一个与解码策略无关的信息论极限，也可以推导出特定策略的极限。 ----- 那么 DLLMs 注定要失败吗？不！它们在节省计算和时间方面具有巨大的潜力。但是：（1）我们需要意识到它们的基本限制，（2）我们需要设计更好的训练和解码策略。特别是在解码方面，有很大的改进空间。为什么？理想情况下，我们希望模型在生成过程中控制并行性的程度。同时，它应该选择在当前上下文下几乎相互独立的未来标记的子集。当前的解码策略在这方面表现如何？很难说。大多数 DLLMs 从未经过压力测试。 ----- 这就是为什么我们引入了一个合成基准来对 DLLMs 进行压力测试。我们称之为 ParallelBench。这个想法很简单：这些是自然语言任务，但经过精心设计，使得并行生成本质上很困难。（想想“New City”，但更自然，更真实的任务。）我们发现了什么？我们测试了流行的 DLLMs 和各种解码算法，没有一个接近“oracle”性能，即如果模型能够在解码过程中最佳调整其并行性时所能获得的理想性能。 ----- 要点：（1）并行生成并不总是可能，更多细节请查看我们的论文 :) （2）如果你能设计一个在我们的基准上匹配 oracle 性能的 DLLM，嗯，谁知道呢，你可能会接到来自门洛帕克某人的电话。😉