Andrej Karpathy提出了一個很激進的想法:所有LLM的輸入都應該是圖像,包括純文本。 什麼意思? 傳統的大語言模型:文本 → tokenizer → LLM → 輸出 Andrej的vision:文本 → 渲染成圖片 → LLM → 輸出 即使你要輸入的就是純文本,也先把它渲染成圖片,再餵給模型。 為什麼這麼做? 他給了4個理由: 1. 信息壓縮更高效 這正是DeepSeek-OCR證明的。一頁文檔,傳統方式可能需要2000個text tokens,用vision tokens只要64個。壓縮率30倍。 文本tokens很浪費,圖像tokens更密集。 2. 更通用 Text tokens只能表達文字。但現實世界的信息不只是文字: - 粗體、斜體 - 彩色文字 - 表格、圖表 - 任意圖像 全部渲染成圖像輸入,模型天然就能處理這些。 ...