DeepSeek vừa phát hành một tài liệu mới khá gây sốc. Họ thực sự đã chôn vùi thông tin quan trọng ở đây khi chỉ gọi nó đơn giản là DeepSeek OCR. Mặc dù đây là một mô hình OCR rất mạnh, nhưng mục đích của nó và những hệ quả từ cách tiếp cận của họ vượt xa những gì bạn mong đợi từ "một mô hình OCR khác". Truyền thống, các token LLM hình ảnh dường như gần như là một suy nghĩ sau cùng hoặc "gắn thêm" vào mô hình LLM. Và 10k từ tiếng Anh sẽ chiếm nhiều không gian hơn trong một LLM đa phương thức khi được biểu thị dưới dạng pixel có thể hiểu được hơn là khi được biểu thị dưới dạng token. Vì vậy, 10k từ đó có thể đã biến thành 15k token, hoặc 30k đến 60k "token hình ảnh". Vì vậy, các token hình ảnh kém hiệu quả hơn nhiều và thực sự chỉ có ý nghĩa khi sử dụng cho dữ liệu không thể truyền đạt hiệu quả bằng từ ngữ. Nhưng điều đó giờ đây đã bị đảo ngược từ những ý tưởng trong tài liệu này. DeepSeek đã tìm ra cách để đạt được sự nén tốt hơn gấp 10 lần khi sử dụng token hình ảnh so với token văn bản! Vì vậy, bạn có thể lý thuyết lưu trữ 10k từ đó chỉ trong 1,500 token hình ảnh nén đặc biệt của họ. Điều này có thể không bất ngờ như nó nghe có vẻ nếu bạn nghĩ về cách mà tâm trí của bạn hoạt động. Dù sao, tôi biết rằng khi tôi đang tìm một phần của một cuốn sách mà tôi đã đọc, tôi hình dung nó một cách trực quan và luôn nhớ bên nào của cuốn sách nó nằm và khoảng đâu trên trang, điều này gợi ý một loại hình đại diện trí nhớ hình ảnh đang hoạt động. Bây giờ, không rõ điều này tương tác như thế nào với các chức năng nhận thức khác của một LLM; liệu mô hình có thể lý luận một cách thông minh qua các token hình ảnh nén đó như nó có thể sử dụng các token văn bản thông thường không? Liệu điều này có làm cho mô hình kém diễn đạt hơn bằng cách buộc nó vào một phương thức định hướng hình ảnh hơn không? Nhưng bạn có thể tưởng tượng rằng, tùy thuộc vào các sự đánh đổi chính xác, nó có thể là một trục mới rất thú vị để mở rộng kích thước ngữ cảnh hiệu quả. Đặc biệt khi kết hợp với tài liệu gần đây khác của DeepSeek từ vài tuần trước về sự chú ý thưa thớt. Cho đến bây giờ, Google có thể đã tìm ra điều gì đó như thế này, điều này có thể giải thích tại sao Gemini có kích thước ngữ cảnh lớn như vậy và rất giỏi và nhanh trong các nhiệm vụ OCR. Nếu họ đã làm, họ có thể sẽ không nói vì điều đó sẽ được coi là một bí mật thương mại quan trọng. Nhưng điều tuyệt vời về DeepSeek là họ đã làm toàn bộ điều này mã nguồn mở và mở trọng số và giải thích cách họ đã làm, vì vậy bây giờ mọi người đều có thể thử nghiệm và khám phá. Ngay cả khi những mẹo này làm cho sự chú ý trở nên mất mát hơn, tiềm năng để có một LLM tiên phong với cửa sổ ngữ cảnh 10 hoặc 20 triệu token là rất thú vị. Bạn có thể cơ bản nhét tất cả các tài liệu nội bộ quan trọng của một công ty vào một phần mở đầu và lưu trữ điều này với OpenAI và sau đó chỉ cần thêm truy vấn hoặc phần mở đầu cụ thể của bạn lên trên và không phải xử lý các công cụ tìm kiếm và vẫn có thể nhanh chóng và tiết kiệm chi phí. Hoặc đưa toàn bộ mã nguồn vào ngữ cảnh và lưu trữ nó, và sau đó chỉ cần tiếp tục thêm tương đương với các sự khác biệt git khi bạn thực hiện thay đổi mã. Nếu bạn đã từng đọc những câu chuyện về nhà vật lý vĩ đại Hans Bethe, ông được biết đến với việc có một lượng lớn các sự thật vật lý ngẫu nhiên được ghi nhớ (như toàn bộ bảng tuần hoàn; điểm sôi của các chất khác nhau, v.v.) để ông có thể suy nghĩ và tính toán một cách liền mạch mà không bao giờ phải ngắt quãng dòng chảy của mình để tra cứu điều gì đó trong bảng tham chiếu. Có một lượng lớn kiến thức cụ thể về nhiệm vụ trong bộ nhớ làm việc của bạn là cực kỳ hữu ích. Điều này có vẻ như là một cách tiếp cận rất thông minh và bổ sung để có thể mở rộng ngân hàng trí nhớ đó lên 10 lần hoặc hơn.
Dưới đây là một số điểm rút ra tốt từ Claude Opus4.1 về tài liệu nếu bạn không muốn đọc toàn bộ (nó cũng khá kỹ thuật):
Những điều về cách bạn có thể "nén" theo cách mất dữ liệu bộ nhớ ngữ cảnh cũ bằng cách tự động giảm kích thước các biểu diễn hình ảnh của những token đó (ví dụ, từ 1024x1024 pixel xuống 512x512 pixel) để tiết kiệm không gian bằng cách làm cho những ký ức đó trở nên "mờ hơn" trực tiếp nói lên điều mà @karpathy đã ủng hộ trong cuộc phỏng vấn với Dwarkesh về việc làm cho các LLM ít phụ thuộc vào việc ghi nhớ chính xác. Và tất nhiên, điều này cũng phản ánh cách mà tâm trí con người hoạt động tốt hơn.
95,11K