熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
剛深扒了一下 MiroThinker 1.5,他們這套 Agent 壓縮方式有點邪門,但看懂了覺得確實有用。
核心解決的是「怎麼在 256K 上下文裡塞進去 400 次 Tool Use」的問題。
他們做了一個極其大膽的操作:對ReAct歷史上 think-action-observation 中的的 Observation(工具返回結果)進行物理掩碼。
除了最近 K 輪保留原文,之前的幾百輪 Tool Result 全部替換成一句 "Tool result is omitted to save tokens"。但是完整保留了所有的 <thought>。
這裡面有一個非常反直覺的地方,這個 agent 本身就是在做 deep research,那他只留最近 K 輪,也就是 5 輪的原文,前面都沒有了,還怎麼能回答問題。
這就有一個非常隱晦但關鍵的前提:只要 Thought 足夠密,它其實就是在無限逼近 Summary。
每一次 Thought 的生成,本質上都是模型對當前 Observation 的一次信息切片。T1 產生時已經把 O1 裡的關鍵數據“吃”進腦子了。
雖然 O1 被替換成了佔位符,但 T1 還在。T1 就成了 O1 的“信息壓縮包”。不需要額外掛一個 Summary Agent,這條完整的 Thought 鏈,本身就是一份不斷增量更新的、高保真的「動態摘要」。

熱門
排行
收藏
