トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy は、すべての LLM 入力はプレーン テキストを含む画像であるべきであるという根本的なアイデアを提案しました。
どういう意味ですか。
従来の大規模言語モデル: テキスト → トークナイザー→ LLM →出力
Andrej のビジョン: テキスト→画像にレンダリング→ LLM →出力
プレーンテキストを入力したい場合でも、画像としてレンダリングしてモデルにフィードします。
なぜこれをするのですか?
彼は4つの理由を挙げた。
1. 情報圧縮がより効率的です
これはまさにDeepSeek-OCRが証明していることです。 1 ページのドキュメントの場合、従来の方法では 2,000 個のテキスト トークンが必要になる場合がありますが、ビジョン トークンでは 64 個しか必要ありません。 圧縮比は30倍。
テキストトークンは無駄で、画像トークンは密度が高くなります。
2. より汎用性の高いもの
テキストトークンは単語のみを表現できます。 しかし、現実世界の情報は単なる言葉ではありません。
- 太字、斜体
- 色付きのテキスト
- 表、グラフ
- 任意の画像
すべて画像入力としてレンダリングされ、モデルはこれらを自然に処理できます。
3. 双方向の注意を使える
技術的な詳細は次のとおりです。 従来のテキストからテキストへの変換は、自己回帰的です (左から右へ)。 画像入力は双方向の注意で使用でき、グローバル情報を参照し、より強力です。
4. トークナイザーを削除します (強調! )
Andrej はトークナイザーを嫌います。
彼の苦情:
- トークナイザーは醜く、独立した、非エンドツーエンドのステージです
- Unicode、バイトコーディングの歴史的な重荷をすべて継承しています
- セキュリティリスクがある(例:継続バイト攻撃)
- 同じように見える 2 つの文字は、トークナイザーの目にはまったく異なる可能性があります
- 😊 この絵文字は、Tokenizer の単なる奇妙なトークンであり、本物のスマイリー画像ではありません
彼はトークナイザーを消すことを望んでいます。
彼のビジョンは何ですか
- 入力: すべての画像 (元々テキストであった場合でも)
- 出力: 静止画 (出力ピクセルが非現実的であるため)
OCR は、ビジョン→テキスト タスクの 1 つにすぎません。 多くのテキスト→テキスト タスクは、ビジョン→テキストに変換できます。
私の理解
アンドレイの視点は過激ですが、それは理にかなっています。
情報理論の観点から見ると、画像は確かにテキストよりも効率的です。 DeepSeek-OCR はこれを証明しています: 64 個のビジョン トークンは 2,000 個のテキスト トークンのメッセージを表現できます。
一般性の観点から見ると、画像入力は当然さまざまな形式 (太字、カラー、グラフ) をサポートしており、トークナイザーの中間層を必要としません。
しかし問題は:
1. 計算コスト:ビジョントークンの処理はテキストトークンよりも高価です。 トークンの数は少ないですが、各ビジョントークンの計算量は大きくなります。
2. トレーニングデータ: 既存のトレーニングデータのほとんどはプレーンテキストです。 それらをすべて画像にレンダリングするにはコストがかかります。
3. 出力の問題: 彼はまた、出力ピクセルが非現実的であることも認めました。 したがって、画像入力→テキスト出力の組み合わせのみが可能です。
しかし、長期的には、この方向性は正しいかもしれません。
特に、次のことを考慮して:
- 人間の入力は本質的にマルチモーダルです (テキスト、画像、ビデオ)
- トークナイザーには多くの問題があります(セキュリティ、Unicode、歴史的な荷物)
- 将来の AI は、すべてをトークンに変えるのではなく、ピクセルを直接理解できるはずです
DeepSeek-OCRは始まりに過ぎないかもしれません。 これは、「コンテキスト光圧縮」が実現可能であることを証明しています。
アンドレイは、トークナイザーのない世界、すべての入力が画像、すべての出力がテキストである、さらなる未来を見ています。
これが現実になるのでしょうか? 知りません。
しかし、少なくとも、この方向性は探求する価値があります。

Andrej Karpathy2025年10月21日
私は新しいDeepSeek-OCR論文がとても気に入っています。これは優れたOCRモデルであり(ドットよりも少し悪いかもしれません)、データ収集などもありますが、とにかくそれは問題ではありません。
私にとってより興味深い部分(特に、一時的に自然言語の人になりすます、根っからのコンピュータービジョンとして)は、ピクセルがテキストよりもLLMへのより良い入力であるかどうかです。テキストトークンが無駄でひどいものであるかどうかは、入力で。
LLM へのすべての入力は画像のみであるべきであるという方が理にかなっているかもしれません。たまたま純粋なテキスト入力がある場合でも、それをレンダリングしてからフィードしたいと思うかもしれません。
- より多くの情報圧縮 (論文を参照) = > コンテキストウィンドウが短くなり、効率が向上します
- より一般的な情報ストリーム=>テキストだけでなく、太字のテキスト、色付きのテキスト、任意の画像など。
- 入力は、自己回帰アテンションではなく、デフォルトで双方向のアテンションで簡単に処理できるようになりました。
- トークナイザーを削除(入力時)!!私はすでにトークナイザーがどれほど嫌いかについて暴言を吐いていました。トークナイザーは醜く、別個であり、エンドツーエンドの段階ではありません。Unicode、バイトエンコーディングのすべての醜さを「インポート」し、多くの歴史的荷物、セキュリティ/脱獄リスク(継続バイトなど)を継承します。目と同じように見える 2 つのキャラクターを、ネットワーク内部では 2 つのまったく異なるトークンとして見せます。笑顔の絵文字は奇妙なトークンのように見えますが、...実際の笑顔、ピクセルなど、そしてそれに伴う転移学習のすべて。トークナイザーは行かなければなりません。
OCRは、多くの便利なビジョン>テキストタスクの1つにすぎません。また、テキスト > テキスト タスクは、ビジョン >テキスト タスクにすることができます。その逆はできません。
ユーザーメッセージの多くは画像ですが、デコーダー(アシスタントの応答)はテキストのままです。ピクセルをリアルに出力する方法は、あまり明らかではありません...または、必要に応じて。
今、私はまた、画像入力のみのバージョンのnanochatをサイドクエストしたいという衝動と戦わなければなりません...
115.34K
AI の時代において、その人が持つ創造性を決して過小評価しないでください。 数か月前にはできなかったことがたくさんあり、今もう一度挑戦するとまったく異なるかもしれません。
半年前、Unityを全く使わずにCursor+Unityでミリタリーをテーマにした3Dシューティングゲームを開発しようとしました。
当時の最大のボトルネックは3Dアセットでした。 市販されている各種AI 3Dツールで生成された装甲車両モデルは、本質的に分離できないスープの塊であり、砲塔と軌道とダメージ効果を独自にアニメーション化することは不可能であり、プロジェクトは直接行き詰まっています。 最近見るまで黄色だと思って@DeemosTech
彼らの新しいロダン Gen-2 は BANG と呼ばれるアーキテクチャを備えており、これは単純に驚くべきもので、モデルがさまざまな部品で構成されていることを理解しており、私のビデオでは装甲車両、ヘリコプター、兵士など、合理的なロジックに従ってあらゆる 3D モデルを分解できます。
この場合、独立したタレットやホイールなどを入手でき、アニメーションのバインドやパラメータ設定に直接使用できるため、前回遭遇した問題は基本的に解決されます。
わずか半年で、AI 開発プロセス全体のほぼすべてのツールが置き換えられたことに突然気づきました。
1. AIプログラミングツールをCursorからClaude Codeに変更しました。
2. 2D素材がミッドジャーニーからナノバナナに変更された。
3. 3D アセットの進化は、おもちゃから道具に至るまで、最も破壊的です。
ですから、自分に制限を設けたり、AIに制限を設けたりせず、自分がやりたいことを明確に考え、半年ごとに試してみれば、予期せぬ驚きが生まれる可能性があります。
hyper3d の新しい機能は、多くの小規模なゲーム チームの効率を向上させる機会があると思いますし、私のような多くの開発者にも最初の 3D ゲームを作成する機会を与えると思います。
73.8K
トップ
ランキング
お気に入り


