Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 ...