熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 剛剛發布了一篇相當震驚的新論文。他們在這裡真的埋藏了重點,僅僅稱之為 DeepSeek OCR。
雖然這是一個非常強大的 OCR 模型,但它的目的和他們的方法的含義遠超過你對「又一個 OCR 模型」的期望。
傳統上,視覺 LLM 令牌幾乎看起來像是 LLM 範式的附加部分或「附加功能」。而 10,000 個英文字在以可理解的像素表達時,會佔用比以令牌表達時更多的空間。
因此,那 10,000 個單詞可能變成了 15,000 個令牌,或者 30,000 到 60,000 個「視覺令牌」。所以視覺令牌的效率要低得多,實際上只有在無法用文字有效傳達的數據上使用才有意義。
但根據這篇論文中的想法,這一點現在被顛倒了。DeepSeek 找到了使用視覺令牌比使用文本令牌更好地壓縮 10 倍的方法!因此,理論上你可以將那 10,000 個單詞僅存儲在 1,500 個他們特殊的壓縮視覺令牌中。
如果你考慮到自己思維的運作方式,這可能並不像聽起來那麼意外。畢竟,我知道當我在尋找一本我已經讀過的書中的某個部分時,我會在腦海中想像它的視覺形象,並且總是記得它在書的哪一側以及大約在頁面的哪個位置,這表明某種視覺記憶表徵在起作用。
現在,尚不清楚這如何與 LLM 的其他下游認知功能互動;模型能否像使用常規文本令牌那樣智能地推理這些壓縮的視覺令牌?這是否會使模型變得不那麼清晰,因為它被迫進入一種更以視覺為導向的模式?
但你可以想像,根據具體的權衡,這可能是一個非常令人興奮的新軸心,可以大大擴展有效的上下文大小。特別是當與 DeepSeek 幾週前關於稀疏注意力的另一篇論文結合時。
據我們所知,谷歌可能已經找到了類似的東西,這可能解釋了為什麼 Gemini 擁有如此巨大的上下文大小,並且在 OCR 任務中如此出色和快速。如果他們真的這樣做了,他們可能不會說,因為這會被視為一個重要的商業機密。
但 DeepSeek 的好處在於,他們將整個東西開源並公開權重,並解釋了他們是如何做到的,因此現在每個人都可以嘗試並探索。
即使這些技巧使注意力變得更具損失性,獲得一個擁有 1,000 萬或 2,000 萬令牌上下文窗口的前沿 LLM 的潛力仍然相當令人興奮。
你基本上可以將公司的所有關鍵內部文件塞進提示前言中,並將其緩存到 OpenAI,然後只需在此基礎上添加你的具體查詢或提示,而不必處理搜索工具,仍然能保持快速和具成本效益。
或者將整個代碼庫放入上下文並緩存,然後在你對代碼進行更改時不斷附加相當於 git 差異的內容。
如果你曾經讀過關於偉大物理學家漢斯·貝特的故事,他以記住大量隨機物理事實而聞名(例如整個元素周期表;各種物質的沸點等),以便他能夠無縫地思考和計算,而不必打斷他的思路去查找參考表中的內容。
擁有大量特定任務的知識在你的工作記憶中是非常有用的。這似乎是一種非常聰明且附加的方法,可能將該記憶庫擴展 10 倍或更多。
以下是來自Claude Opus4.1的論文的一些重要要點,如果你不想閱讀整篇文章(這篇文章也相當技術性):




關於如何以有損的方式「壓縮」舊的上下文記憶,通過自動下採樣這些標記的視覺表示(例如,從1024x1024像素降至512x512像素)來節省空間,使這些記憶變得「模糊」,這直接呼應了@karpathy在他的Dwarkesh訪談中所倡導的,使LLM不再過於依賴精確的記憶。而且,這也更好地反映了人類思維的運作方式。
184.88K
熱門
排行
收藏