分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Andrej Karpathy は、すべての LLM 入力はプレーンテキストを含む画像であるべきであるという根本的なアイデアを提案しました。どういう意味ですか。従来の大規模言語モデル: テキスト → トークナイザー→ LLM →出力 Andrej のビジョン: テキスト→画像にレンダリング→ LLM →出力プレーンテキストを入力したい場合でも、画像としてレンダリングしてモデルにフィードします。なぜこれをするのですか? 彼は4つの理由を挙げた。 1. 情報圧縮がより効率的ですこれはまさにDeepSeek-OCRが証明していることです。 1 ページのドキュメントの場合、従来の方法では 2,000 個のテキストトークンが必要になる場合がありますが、ビジョントークンでは 64 個しか必要ありません。圧縮比は30倍。テキストトークンは無駄で、画像トークンは密度が高くなります。 2. より汎用性の高いものテキストトークンは単語のみを表現できます。しかし、現実世界の情報は単なる言葉ではありません。 - 太字、斜体 - 色付きのテキスト - 表、グラフ - 任意の画像すべて画像入力としてレンダリングされ、モデルはこれらを自然に処理できます。 ...

トップ

ランキング

お気に入り