為什麼 DeepSeek-OCR 這麼重要? 現有的 LLM 在處理長輸入時遇到困難,因為它們只能處理固定數量的標記,稱為上下文窗口,並且隨著輸入變長,注意力成本迅速增加。 DeepSeek-OCR 採取了一種新方法。 它不是直接將長上下文發送給 LLM,而是將其轉換為圖像,將該圖像壓縮為視覺標記,然後將這些標記傳遞給 LLM。 較少的標記導致注意力的計算成本降低,並且有效的上下文窗口更大。這使得聊天機器人和文檔模型更具能力和效率。 DeepSeek-OCR 是如何構建的?該系統有兩個主要部分: 1. 編碼器:它處理文本的圖像,提取視覺特徵,並將其壓縮為少量的視覺標記。 2. 解碼器:一種混合專家語言模型,讀取這些標記並逐個生成文本,類似於標準的僅解碼器變壓器。 何時使用它? DeepSeek-OCR 顯示文本可以使用視覺表示有效地壓縮。 它特別適用於處理超出標準上下文限制的非常長的文檔。您可以將其用於上下文壓縮、標準 OCR 任務或深度解析,例如將表格和複雜佈局轉換為文本。 交給你:你對使用視覺標記來處理 LLM 中的長上下文問題有何看法?這會成為大型模型的下一個標準嗎? -- 我們剛剛推出了成為 AI 工程師 | 實踐學習:第二期。如果您錯過了第一期,現在是您加入第二期的機會。 在這裡查看: #AI #AIEngineer #MachineLearning...