一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

為什麼 DeepSeek-OCR 這麼重要？現有的 LLM 在處理長輸入時遇到困難，因為它們只能處理固定數量的標記，稱為上下文窗口，並且隨著輸入變長，注意力成本迅速增加。 DeepSeek-OCR 採取了一種新方法。它不是直接將長上下文發送給 LLM，而是將其轉換為圖像，將該圖像壓縮為視覺標記，然後將這些標記傳遞給 LLM。較少的標記導致注意力的計算成本降低，並且有效的上下文窗口更大。這使得聊天機器人和文檔模型更具能力和效率。 DeepSeek-OCR 是如何構建的？該系統有兩個主要部分： 1. 編碼器：它處理文本的圖像，提取視覺特徵，並將其壓縮為少量的視覺標記。 2. 解碼器：一種混合專家語言模型，讀取這些標記並逐個生成文本，類似於標準的僅解碼器變壓器。何時使用它？ DeepSeek-OCR 顯示文本可以使用視覺表示有效地壓縮。它特別適用於處理超出標準上下文限制的非常長的文檔。您可以將其用於上下文壓縮、標準 OCR 任務或深度解析，例如將表格和複雜佈局轉換為文本。交給你：你對使用視覺標記來處理 LLM 中的長上下文問題有何看法？這會成為大型模型的下一個標準嗎？ -- 我們剛剛推出了成為 AI 工程師 | 實踐學習：第二期。如果您錯過了第一期，現在是您加入第二期的機會。在這裡查看： #AI #AIEngineer #MachineLearning...