热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。
什么意思?
传统的大语言模型:文本 → tokenizer → LLM → 输出
Andrej的vision:文本 → 渲染成图片 → LLM → 输出
即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。
为什么这么做?
他给了4个理由:
1. 信息压缩更高效
这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。
文本tokens很浪费,图像tokens更密集。
2. 更通用
Text tokens只能表达文字。但现实世界的信息不只是文字:
- 粗体、斜体
- 彩色文字
- 表格、图表
- 任意图像
全部渲染成图像输入,模型天然就能处理这些。
...
热门
排行
收藏