熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
很棒的短文,說明了簡單的文本(離散)擴散是多麼簡單。
擴散(即平行、迭代去噪、頂部)是圖像/視頻中普遍的生成範式,但自回歸(即從左到右底部)是文本中的主導範式。對於音頻,我看到兩者都有一些。
許多擴散論文看起來有點密集,但如果你去掉數學形式主義,你會得到簡單的基線算法,例如更接近於連續中的流匹配,或在離散中像這樣的東西。這是你的香草變壓器,但具有雙向注意力,你會根據噪聲計劃迭代地重新取樣和重新遮罩你在 "tokens canvas" 中的所有標記,直到在最後一步獲得最終樣本。(雙向注意力更強大,如果你用它訓練,你會得到更強的自回歸語言模型,不幸的是,這使得訓練變得更加昂貴,因為現在你無法在序列維度上進行並行化)。
因此,自回歸是在標記畫布上進行 `.append(token)`,而僅僅向後注意,而擴散則是用 `.setitem(idx, token)` 刷新整個標記畫布,同時進行雙向注意。人類思維天真地感覺更像是自回歸,但很難說在某些潛在的思維空間中沒有更多類似擴散的組件。感覺很有可能你可以進一步在它們之間插值,或進一步概括它們。而且這是 LLM 堆棧中的一個組件,仍然感覺有點可替代。
現在我必須抵制將 nanochat 與擴散訓練的衝動。
熱門
排行
收藏

