Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy zaproponował dość radykalny pomysł: wszystkie wejścia LLM powinny być obrazami, w tym czysty tekst.
Co to znaczy?
Tradycyjne duże modele językowe: tekst → tokenizer → LLM → wyjście
Wizja Andreja: tekst → renderowanie na obraz → LLM → wyjście
Nawet jeśli chcesz wprowadzić czysty tekst, najpierw renderuj go na obraz, a następnie podaj modelowi.
Dlaczego tak robić?
Przedstawił 4 powody:
1. Wyższa efektywność kompresji informacji
To właśnie udowodnił DeepSeek-OCR. Jedna strona dokumentu, w tradycyjny sposób może wymagać 2000 tokenów tekstowych, używając tokenów wizji wystarczy 64. Współczynnik kompresji 30 razy.
Tokeny tekstowe są bardzo marnotrawne, tokeny obrazowe są bardziej gęste.
2. Bardziej uniwersalne
Tokeny tekstowe mogą wyrażać tylko tekst. Ale informacje w rzeczywistym świecie to nie tylko tekst:
- pogrubienie, kursywa
- kolorowy tekst
- tabele, wykresy
- dowolne obrazy
Wszystko renderowane jako obraz wejściowy, model naturalnie będzie w stanie to przetworzyć.
...
Najlepsze
Ranking
Ulubione