Andrej Karpathy zaproponował dość radykalny pomysł: wszystkie wejścia LLM powinny być obrazami, w tym czysty tekst. Co to znaczy? Tradycyjne duże modele językowe: tekst → tokenizer → LLM → wyjście Wizja Andreja: tekst → renderowanie na obraz → LLM → wyjście Nawet jeśli chcesz wprowadzić czysty tekst, najpierw renderuj go na obraz, a następnie podaj modelowi. Dlaczego tak robić? Przedstawił 4 powody: 1. Wyższa efektywność kompresji informacji To właśnie udowodnił DeepSeek-OCR. Jedna strona dokumentu, w tradycyjny sposób może wymagać 2000 tokenów tekstowych, używając tokenów wizji wystarczy 64. Współczynnik kompresji 30 razy. Tokeny tekstowe są bardzo marnotrawne, tokeny obrazowe są bardziej gęste. 2. Bardziej uniwersalne Tokeny tekstowe mogą wyrażać tylko tekst. Ale informacje w rzeczywistym świecie to nie tylko tekst: - pogrubienie, kursywa - kolorowy tekst - tabele, wykresy - dowolne obrazy Wszystko renderowane jako obraz wejściowy, model naturalnie będzie w stanie to przetworzyć. ...