Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy navrhl radikální myšlenku: všechny vstupy LLM by měly být obrázky, včetně prostého textu.
Jak to myslíš?
Tradiční velké jazykové modely: Textový → tokenizátor → LLM → výstup
Andrejova vize: Text → převeden do obrázků → LLM → výstupu
I když chcete zadat prostý text, vykreslete jej jako obrázek a vložte jej do modelu.
Proč to dělat?
Uvedl 4 důvody:
1. Komprese informací je efektivnější
To je přesně to, co dokazuje DeepSeek-OCR. Pro jednostránkový dokument může tradiční metoda vyžadovat 2 000 textových tokenů a token vidění potřebuje pouze 64. Kompresní poměr 30krát.
Textové tokeny jsou nehospodárné, obrazové tokeny jsou hustší.
2. Univerzálnější
Textové tokeny mohou vyjadřovat pouze slova. Informace z reálného světa jsou však více než jen slova:
- Tučné, kurzíva
- Barevný text
- Tabulky, grafy
- Libovolné obrázky
Všechny jsou vykresleny jako obrazové vstupy a model si s nimi přirozeně poradí.
...
Top
Hodnocení
Oblíbené