分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

AI进化论-花生

Andrej Karpathy は、すべての LLM 入力はプレーンテキストを含む画像であるべきであるという根本的なアイデアを提案しました。どういう意味ですか。従来の大規模言語モデル: テキスト → トークナイザー→ LLM →出力 Andrej のビジョン: テキスト→画像にレンダリング→ LLM →出力プレーンテキストを入力したい場合でも、画像としてレンダリングしてモデルにフィードします。なぜこれをするのですか? 彼は4つの理由を挙げた。 1. 情報圧縮がより効率的ですこれはまさにDeepSeek-OCRが証明していることです。 1 ページのドキュメントの場合、従来の方法では 2,000 個のテキストトークンが必要になる場合がありますが、ビジョントークンでは 64 個しか必要ありません。圧縮比は30倍。テキストトークンは無駄で、画像トークンは密度が高くなります。 2. より汎用性の高いものテキストトークンは単語のみを表現できます。しかし、現実世界の情報は単なる言葉ではありません。 - 太字、斜体 - 色付きのテキスト - 表、グラフ - 任意の画像すべて画像入力としてレンダリングされ、モデルはこれらを自然に処理できます。 3. 双方向の注意を使える技術的な詳細は次のとおりです。従来のテキストからテキストへの変換は、自己回帰的です (左から右へ)。画像入力は双方向の注意で使用でき、グローバル情報を参照し、より強力です。 4. トークナイザーを削除します (強調! ） Andrej はトークナイザーを嫌います。彼の苦情: - トークナイザーは醜く、独立した、非エンドツーエンドのステージです - Unicode、バイトコーディングの歴史的な重荷をすべて継承しています - セキュリティリスクがある(例:継続バイト攻撃) - 同じように見える 2 つの文字は、トークナイザーの目にはまったく異なる可能性があります - 😊 この絵文字は、Tokenizer の単なる奇妙なトークンであり、本物のスマイリー画像ではありません彼はトークナイザーを消すことを望んでいます。彼のビジョンは何ですか - 入力: すべての画像 (元々テキストであった場合でも) - 出力: 静止画 (出力ピクセルが非現実的であるため) OCR は、ビジョン→テキストタスクの 1 つにすぎません。多くのテキスト→テキストタスクは、ビジョン→テキストに変換できます。私の理解アンドレイの視点は過激ですが、それは理にかなっています。情報理論の観点から見ると、画像は確かにテキストよりも効率的です。 DeepSeek-OCR はこれを証明しています: 64 個のビジョントークンは 2,000 個のテキストトークンのメッセージを表現できます。一般性の観点から見ると、画像入力は当然さまざまな形式 (太字、カラー、グラフ) をサポートしており、トークナイザーの中間層を必要としません。しかし問題は： 1. 計算コスト:ビジョントークンの処理はテキストトークンよりも高価です。トークンの数は少ないですが、各ビジョントークンの計算量は大きくなります。 2. トレーニングデータ: 既存のトレーニングデータのほとんどはプレーンテキストです。それらをすべて画像にレンダリングするにはコストがかかります。 3. 出力の問題: 彼はまた、出力ピクセルが非現実的であることも認めました。したがって、画像入力→テキスト出力の組み合わせのみが可能です。しかし、長期的には、この方向性は正しいかもしれません。特に、次のことを考慮して: - 人間の入力は本質的にマルチモーダルです (テキスト、画像、ビデオ) - トークナイザーには多くの問題があります(セキュリティ、Unicode、歴史的な荷物) - 将来の AI は、すべてをトークンに変えるのではなく、ピクセルを直接理解できるはずです DeepSeek-OCRは始まりに過ぎないかもしれません。これは、「コンテキスト光圧縮」が実現可能であることを証明しています。アンドレイは、トークナイザーのない世界、すべての入力が画像、すべての出力がテキストである、さらなる未来を見ています。これが現実になるのでしょうか? 知りません。しかし、少なくとも、この方向性は探求する価値があります。

私は新しいDeepSeek-OCR論文がとても気に入っています。これは優れたOCRモデルであり(ドットよりも少し悪いかもしれません)、データ収集などもありますが、とにかくそれは問題ではありません。私にとってより興味深い部分(特に、一時的に自然言語の人になりすます、根っからのコンピュータービジョンとして)は、ピクセルがテキストよりもLLMへのより良い入力であるかどうかです。テキストトークンが無駄でひどいものであるかどうかは、入力で。 LLM へのすべての入力は画像のみであるべきであるという方が理にかなっているかもしれません。たまたま純粋なテキスト入力がある場合でも、それをレンダリングしてからフィードしたいと思うかもしれません。 - より多くの情報圧縮 (論文を参照) = > コンテキストウィンドウが短くなり、効率が向上します - より一般的な情報ストリーム=>テキストだけでなく、太字のテキスト、色付きのテキスト、任意の画像など。 - 入力は、自己回帰アテンションではなく、デフォルトで双方向のアテンションで簡単に処理できるようになりました。 - トークナイザーを削除(入力時)!!私はすでにトークナイザーがどれほど嫌いかについて暴言を吐いていました。トークナイザーは醜く、別個であり、エンドツーエンドの段階ではありません。Unicode、バイトエンコーディングのすべての醜さを「インポート」し、多くの歴史的荷物、セキュリティ/脱獄リスク(継続バイトなど)を継承します。目と同じように見える 2 つのキャラクターを、ネットワーク内部では 2 つのまったく異なるトークンとして見せます。笑顔の絵文字は奇妙なトークンのように見えますが、...実際の笑顔、ピクセルなど、そしてそれに伴う転移学習のすべて。トークナイザーは行かなければなりません。 OCRは、多くの便利なビジョン>テキストタスクの1つにすぎません。また、テキスト > テキストタスクは、ビジョン >テキストタスクにすることができます。その逆はできません。ユーザーメッセージの多くは画像ですが、デコーダー(アシスタントの応答)はテキストのままです。ピクセルをリアルに出力する方法は、あまり明らかではありません...または、必要に応じて。今、私はまた、画像入力のみのバージョンのnanochatをサイドクエストしたいという衝動と戦わなければなりません...

トップ

ランキング

お気に入り