Andrej Karpathy navrhl radikální myšlenku: všechny vstupy LLM by měly být obrázky, včetně prostého textu. Jak to myslíš? Tradiční velké jazykové modely: Textový → tokenizátor → LLM → výstup Andrejova vize: Text → převeden do obrázků → LLM → výstupu I když chcete zadat prostý text, vykreslete jej jako obrázek a vložte jej do modelu. Proč to dělat? Uvedl 4 důvody: 1. Komprese informací je efektivnější To je přesně to, co dokazuje DeepSeek-OCR. Pro jednostránkový dokument může tradiční metoda vyžadovat 2 000 textových tokenů a token vidění potřebuje pouze 64. Kompresní poměr 30krát. Textové tokeny jsou nehospodárné, obrazové tokeny jsou hustší. 2. Univerzálnější Textové tokeny mohou vyjadřovat pouze slova. Informace z reálného světa jsou však více než jen slova: - Tučné, kurzíva - Barevný text - Tabulky, grafy - Libovolné obrázky Všechny jsou vykresleny jako obrazové vstupy a model si s nimi přirozeně poradí. ...