熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Andrej Karpathy提出了一個很激進的想法:所有LLM的輸入都應該是圖像,包括純文本。
什麼意思?
傳統的大語言模型:文本 → tokenizer → LLM → 輸出
Andrej的vision:文本 → 渲染成圖片 → LLM → 輸出
即使你要輸入的就是純文本,也先把它渲染成圖片,再餵給模型。
為什麼這麼做?
他給了4個理由:
1. 信息壓縮更高效
這正是DeepSeek-OCR證明的。一頁文檔,傳統方式可能需要2000個text tokens,用vision tokens只要64個。壓縮率30倍。
文本tokens很浪費,圖像tokens更密集。
2. 更通用
Text tokens只能表達文字。但現實世界的信息不只是文字:
- 粗體、斜體
- 彩色文字
- 表格、圖表
- 任意圖像
全部渲染成圖像輸入,模型天然就能處理這些。
...
熱門
排行
收藏