Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

AI进化论-花生

Andrej Karpathy zaproponował dość radykalny pomysł: wszystkie wejścia LLM powinny być obrazami, w tym czysty tekst. Co to znaczy? Tradycyjne duże modele językowe: tekst → tokenizer → LLM → wyjście Wizja Andreja: tekst → renderowanie na obraz → LLM → wyjście Nawet jeśli chcesz wprowadzić czysty tekst, najpierw renderuj go na obraz, a następnie podaj modelowi. Dlaczego tak robić? Przedstawił 4 powody: 1. Wyższa efektywność kompresji informacji To właśnie udowodnił DeepSeek-OCR. Jedna strona dokumentu, w tradycyjny sposób może wymagać 2000 tokenów tekstowych, używając tokenów wizji wystarczy 64. Współczynnik kompresji 30 razy. Tokeny tekstowe są bardzo marnotrawne, tokeny obrazowe są bardziej gęste. 2. Bardziej uniwersalne Tokeny tekstowe mogą wyrażać tylko tekst. Ale informacje w rzeczywistym świecie to nie tylko tekst: - pogrubienie, kursywa - kolorowy tekst - tabele, wykresy - dowolne obrazy Wszystko renderowane jako obraz wejściowy, model naturalnie będzie w stanie to przetworzyć. 3. Możliwość użycia dwukierunkowej uwagi To szczegół techniczny. Tradycyjne podejście tekst-do-tekstu jest autoregresywne (od lewej do prawej). Wejście obrazowe może korzystać z dwukierunkowej uwagi, widząc globalne informacje, co jest potężniejsze. 4. Usunięcie tokenizera (kluczowe!) Andrej bardzo nie lubi tokenizera. Jego krytyka: - Tokenizer to brzydki, niezależny, niekończący się etap - Dziedziczy wszystkie historyczne obciążenia Unicode i kodowania bajtów - Istnieją ryzyka bezpieczeństwa (np. ataki na bajty kontynuacji) - Dwa wyglądające identycznie znaki mogą być w oczach tokenizera całkowicie różne - 😊 ten emoji w tokenizatorze to tylko dziwny token, a nie prawdziwy obrazek uśmiechniętej twarzy Chciałby, aby tokenizer zniknął. Jaka jest jego wizja? - Wejście: wszystko to obrazy (nawet jeśli pierwotnie to tekst) - Wyjście: wciąż tekst (ponieważ wyjście w postaci pikseli nie jest realistyczne) OCR to tylko jedno z zadań wizji→tekstu. Wiele zadań tekst→tekst można przekształcić w wizję→tekst. Moje zrozumienie Pogląd Andreja jest radykalny, ale rzeczywiście ma sens. Z perspektywy teorii informacji, obrazy są rzeczywiście bardziej efektywne niż tekst. DeepSeek-OCR to udowodnił: 64 tokeny wizji mogą wyrazić informacje 2000 tokenów tekstowych. Z perspektywy uniwersalności, wejście obrazowe naturalnie wspiera różne formaty (pogrubienie, kolory, wykresy), nie potrzebując tokenizera jako pośredniego etapu. Ale problem polega na tym: 1. Koszt obliczeniowy: przetwarzanie tokenów wizji jest droższe niż tokenów tekstowych. Chociaż liczba tokenów jest mniejsza, obliczenia dla każdego tokena wizji są większe. 2. Dane treningowe: większość istniejących danych treningowych to czysty tekst. Renderowanie wszystkiego jako obraz jest kosztowne. 3. Problem wyjścia: on również przyznaje, że wyjście w postaci pikseli nie jest realistyczne. Dlatego może to być tylko mieszany model wejścia obrazowego→wyjścia tekstowego. Ale w dłuższej perspektywie, ten kierunek może być słuszny. Szczególnie biorąc pod uwagę: - Ludzkie wejście jest z natury multimodalne (tekst, obrazy, wideo) - Tokenizer rzeczywiście ma wiele problemów (bezpieczeństwo, Unicode, obciążenia historyczne) - Przyszła AI powinna być w stanie bezpośrednio rozumieć piksele, a nie przekształcać wszystko w tokeny DeepSeek-OCR może być tylko początkiem. Udowodnił, że "kontekstowa kompresja optyczna" jest wykonalna. Andrej widzi dalszą przyszłość: świat bez tokenizera, wszystkie wejścia to obrazy, wszystkie wyjścia to tekst. Czy to stanie się rzeczywistością? Nie wiem. Ale przynajmniej ten kierunek warto zbadać.

Najlepsze

Ranking

Ulubione