余孫博士的研究:利用超曲面計算推進人工智慧 余孫博士與來自史丹佛大學、加州大學伯克利分校、加州大學聖地牙哥分校和德克薩斯大學奧斯汀分校的研究人員一起,利用Hyperbolic Labs的GPU基礎設施推進生成式人工智慧的前沿。 兩個突破性項目:分鐘級視頻生成和自適應RNNs。 🧵
分鐘長的視頻生成 🎥 大多數視頻模型如 Sora 和 Veo 的時長限制在約 20 秒。Sun 的團隊引入了測試時訓練(TTT)層——在推理過程中演變的自適應神經狀態,使得從單一提示生成 1 分鐘的視頻成為可能,且無需後期編輯。
基礎結構和結果 > 256× NVIDIA H100 通過 @hyperbolic_ai >型號:5B param CogVideo-X > 上下文長度:300,000 個代幣 > 運行時間:50 GPU 小時 > 資料集:7 小時故事板卡通片 > +34 Elo vs Mamba 2 基線 >紙 📄
具有表現力的隱藏狀態的 RNN 🔁 標準 RNN 在超過 16k 令牌後性能下降。孫博士的團隊構建了 TTT-Linear 和 TTT-MLP——可學習的神經網絡隱藏狀態。這些在推理過程中使用基於梯度的自我監督進行適應。
結果 > 上下文長度:32,000 個代幣 > 模型比例:125M至1.3B參數 > 運行時加速:5×透過雙表單優化 > 線性時間、恆定記憶體 > 優於或匹配 Transformer、Mamba、DeltaNet >代碼:
超弦基礎 = 研究促進者 超弦的穩定、高吞吐量的 H100 集群支持 30 萬標記處理、持久環境以進行內部循環優化,以及可擴展的資源以進行 FLOP 匹配實驗。
"Hyperbolic 的 H100 GPU 和服務提供了可靠性,使我們能夠在測試時訓練中原型化我們的研究。他們的基礎設施使我們能夠更輕鬆地擴展模型,從文本故事板生成一分鐘的視頻。我們能夠專注於研究,而不是處理基礎設施問題。” — Dr. Yu Sun
生成式 AI 和序列建模的未來已經到來。隨著 TTT 層和可擴展計算,新的前沿正在被開啟。 現在可以按需租用 GPU 查看完整的部落格文章:
7.04K