熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
為什麼 DeepSeek-OCR 這麼重要?
現有的 LLM 在處理長輸入時遇到困難,因為它們只能處理固定數量的標記,稱為上下文窗口,並且隨著輸入變長,注意力成本迅速增加。
DeepSeek-OCR 採取了一種新方法。
它不是直接將長上下文發送給 LLM,而是將其轉換為圖像,將該圖像壓縮為視覺標記,然後將這些標記傳遞給 LLM。
較少的標記導致注意力的計算成本降低,並且有效的上下文窗口更大。這使得聊天機器人和文檔模型更具能力和效率。
DeepSeek-OCR 是如何構建的?該系統有兩個主要部分:
1. 編碼器:它處理文本的圖像,提取視覺特徵,並將其壓縮為少量的視覺標記。
2. 解碼器:一種混合專家語言模型,讀取這些標記並逐個生成文本,類似於標準的僅解碼器變壓器。
何時使用它?
DeepSeek-OCR 顯示文本可以使用視覺表示有效地壓縮。
它特別適用於處理超出標準上下文限制的非常長的文檔。您可以將其用於上下文壓縮、標準 OCR 任務或深度解析,例如將表格和複雜佈局轉換為文本。
交給你:你對使用視覺標記來處理 LLM 中的長上下文問題有何看法?這會成為大型模型的下一個標準嗎?
--
我們剛剛推出了成為 AI 工程師 | 實踐學習:第二期。如果您錯過了第一期,現在是您加入第二期的機會。
在這裡查看:
#AI #AIEngineer #MachineLearning...

熱門
排行
收藏

