一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

很棒的短文，說明了簡單的文本（離散）擴散是多麼簡單。擴散（即平行、迭代去噪、頂部）是圖像/視頻中普遍的生成範式，但自回歸（即從左到右底部）是文本中的主導範式。對於音頻，我看到兩者都有一些。許多擴散論文看起來有點密集，但如果你去掉數學形式主義，你會得到簡單的基線算法，例如更接近於連續中的流匹配，或在離散中像這樣的東西。這是你的香草變壓器，但具有雙向注意力，你會根據噪聲計劃迭代地重新取樣和重新遮罩你在 "tokens canvas" 中的所有標記，直到在最後一步獲得最終樣本。（雙向注意力更強大，如果你用它訓練，你會得到更強的自回歸語言模型，不幸的是，這使得訓練變得更加昂貴，因為現在你無法在序列維度上進行並行化）。因此，自回歸是在標記畫布上進行 `.append(token)`，而僅僅向後注意，而擴散則是用 `.setitem(idx, token)` 刷新整個標記畫布，同時進行雙向注意。人類思維天真地感覺更像是自回歸，但很難說在某些潛在的思維空間中沒有更多類似擴散的組件。感覺很有可能你可以進一步在它們之間插值，或進一步概括它們。而且這是 LLM 堆棧中的一個組件，仍然感覺有點可替代。現在我必須抵制將 nanochat 與擴散訓練的衝動。