Andrej Karpathy は、すべての LLM 入力はプレーン テキストを含む画像であるべきであるという根本的なアイデアを提案しました。 どういう意味ですか。 従来の大規模言語モデル: テキスト → トークナイザー→ LLM →出力 Andrej のビジョン: テキスト→画像にレンダリング→ LLM →出力 プレーンテキストを入力したい場合でも、画像としてレンダリングしてモデルにフィードします。 なぜこれをするのですか? 彼は4つの理由を挙げた。 1. 情報圧縮がより効率的です これはまさにDeepSeek-OCRが証明していることです。 1 ページのドキュメントの場合、従来の方法では 2,000 個のテキスト トークンが必要になる場合がありますが、ビジョン トークンでは 64 個しか必要ありません。 圧縮比は30倍。 テキストトークンは無駄で、画像トークンは密度が高くなります。 2. より汎用性の高いもの テキストトークンは単語のみを表現できます。 しかし、現実世界の情報は単なる言葉ではありません。 - 太字、斜体 - 色付きのテキスト - 表、グラフ - 任意の画像 すべて画像入力としてレンダリングされ、モデルはこれらを自然に処理できます。 ...