熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
每個人都忽略了這裡的真正故事。
這不是一種「提示技術」。這篇論文的名稱是遞歸語言模型,而不是「遞歸元認知」。而且作者不是隨便的研究人員在為引用次數而努力。
奧馬爾·哈塔布創建了DSPy,擁有超過31,000個GitHub星標,改變了人們構建複合AI系統的方式。蒂姆·克拉斯卡與谷歌的傑夫·迪恩一起開創了學習索引結構,並運營麻省理工學院的數據系統與AI實驗室。亞歷克斯·張是一名在兩者交集處工作的博士生。
實際的論文解決了一個特定問題:LLM在長上下文中退化。圖表顯示,隨著輸入長度從2^14擴展到2^21個標記,GPT-5的性能崩潰,而RLM則保持穩定的性能。它們處理的輸入超過上下文窗口的100倍。
哈塔布自己在推特上的關鍵見解是:「大多數人誤解RLM是關於LLM自我調用的。更深的見解是LLM與自己的提示作為對象進行互動。」
這擴展了哈塔布整個研究的弧線。DSPy將提示轉變為程序模塊。ColBERT使檢索變得更智能。RLM將上下文本身轉變為模型可以像內存中的數據一樣操作的東西。
Prime Intellect,領先的去中心化AI實驗室之一,已經在此基礎上進行建設。他們寫道,RLM將使他們「教會模型通過強化學習端到端管理自己的上下文」,以便在數周或數月內運行的代理。
真正的交易是?這解決了每個AI實驗室面臨的約束:上下文窗口是一個硬性上限。通過架構和訓練擴展它們是昂貴的。RLM提供了一種在推理時期的解決方案,與現有模型兼容。
但要注意陷阱:這需要能夠可靠地編寫和執行代碼的模型。基準測試使用GPT-5在Python REPL中。代碼生成能力較弱的模型將難以乾淨地實現遞歸分解。這種技術的擴展依賴於代碼能力,而不僅僅是推理能力。
熱門
排行
收藏
