Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy zaproponował dość radykalny pomysł: wszystkie wejścia LLM powinny być obrazami, w tym czysty tekst.
Co to znaczy?
Tradycyjne duże modele językowe: tekst → tokenizer → LLM → wyjście
Wizja Andreja: tekst → renderowanie na obraz → LLM → wyjście
Nawet jeśli chcesz wprowadzić czysty tekst, najpierw renderuj go na obraz, a następnie podaj modelowi.
Dlaczego tak robić?
Przedstawił 4 powody:
1. Wyższa efektywność kompresji informacji
To właśnie udowodnił DeepSeek-OCR. Jedna strona dokumentu, w tradycyjny sposób może wymagać 2000 tokenów tekstowych, używając tokenów wizji wystarczy 64. Współczynnik kompresji 30 razy.
Tokeny tekstowe są bardzo marnotrawne, tokeny obrazowe są bardziej gęste.
2. Bardziej uniwersalne
Tokeny tekstowe mogą wyrażać tylko tekst. Ale informacje w rzeczywistym świecie to nie tylko tekst:
- pogrubienie, kursywa
- kolorowy tekst
- tabele, wykresy
- dowolne obrazy
Wszystko renderowane jako obraz wejściowy, model naturalnie będzie w stanie to przetworzyć.
3. Możliwość użycia dwukierunkowej uwagi
To szczegół techniczny. Tradycyjne podejście tekst-do-tekstu jest autoregresywne (od lewej do prawej). Wejście obrazowe może korzystać z dwukierunkowej uwagi, widząc globalne informacje, co jest potężniejsze.
4. Usunięcie tokenizera (kluczowe!)
Andrej bardzo nie lubi tokenizera.
Jego krytyka:
- Tokenizer to brzydki, niezależny, niekończący się etap
- Dziedziczy wszystkie historyczne obciążenia Unicode i kodowania bajtów
- Istnieją ryzyka bezpieczeństwa (np. ataki na bajty kontynuacji)
- Dwa wyglądające identycznie znaki mogą być w oczach tokenizera całkowicie różne
- 😊 ten emoji w tokenizatorze to tylko dziwny token, a nie prawdziwy obrazek uśmiechniętej twarzy
Chciałby, aby tokenizer zniknął.
Jaka jest jego wizja?
- Wejście: wszystko to obrazy (nawet jeśli pierwotnie to tekst)
- Wyjście: wciąż tekst (ponieważ wyjście w postaci pikseli nie jest realistyczne)
OCR to tylko jedno z zadań wizji→tekstu. Wiele zadań tekst→tekst można przekształcić w wizję→tekst.
Moje zrozumienie
Pogląd Andreja jest radykalny, ale rzeczywiście ma sens.
Z perspektywy teorii informacji, obrazy są rzeczywiście bardziej efektywne niż tekst. DeepSeek-OCR to udowodnił: 64 tokeny wizji mogą wyrazić informacje 2000 tokenów tekstowych.
Z perspektywy uniwersalności, wejście obrazowe naturalnie wspiera różne formaty (pogrubienie, kolory, wykresy), nie potrzebując tokenizera jako pośredniego etapu.
Ale problem polega na tym:
1. Koszt obliczeniowy: przetwarzanie tokenów wizji jest droższe niż tokenów tekstowych. Chociaż liczba tokenów jest mniejsza, obliczenia dla każdego tokena wizji są większe.
2. Dane treningowe: większość istniejących danych treningowych to czysty tekst. Renderowanie wszystkiego jako obraz jest kosztowne.
3. Problem wyjścia: on również przyznaje, że wyjście w postaci pikseli nie jest realistyczne. Dlatego może to być tylko mieszany model wejścia obrazowego→wyjścia tekstowego.
Ale w dłuższej perspektywie, ten kierunek może być słuszny.
Szczególnie biorąc pod uwagę:
- Ludzkie wejście jest z natury multimodalne (tekst, obrazy, wideo)
- Tokenizer rzeczywiście ma wiele problemów (bezpieczeństwo, Unicode, obciążenia historyczne)
- Przyszła AI powinna być w stanie bezpośrednio rozumieć piksele, a nie przekształcać wszystko w tokeny
DeepSeek-OCR może być tylko początkiem. Udowodnił, że "kontekstowa kompresja optyczna" jest wykonalna.
Andrej widzi dalszą przyszłość: świat bez tokenizera, wszystkie wejścia to obrazy, wszystkie wyjścia to tekst.
Czy to stanie się rzeczywistością? Nie wiem.
Ale przynajmniej ten kierunek warto zbadać.

Andrej Karpathy21 paź 2025
Bardzo podoba mi się nowy artykuł DeepSeek-OCR. To dobry model OCR (może trochę gorszy niż dots), a tak, zbieranie danych itd., ale w każdym razie to nie ma znaczenia.
Bardziej interesującą częścią dla mnie (szczególnie jako osoba z zamiłowaniem do wizji komputerowej, która tymczasowo udaje osobę zajmującą się językiem naturalnym) jest to, czy piksele są lepszymi wejściami do LLM niż tekst. Czy tokeny tekstowe są marnotrawne i po prostu okropne jako wejście.
Może ma sens, że wszystkie wejścia do LLM powinny być tylko obrazami. Nawet jeśli przypadkiem masz czysty tekst jako wejście, może wolałbyś go renderować, a następnie wprowadzać:
- większa kompresja informacji (zobacz artykuł) => krótsze okna kontekstowe, większa efektywność
- znacznie bardziej ogólny strumień informacji => nie tylko tekst, ale np. pogrubiony tekst, kolorowy tekst, dowolne obrazy.
- wejście może być teraz przetwarzane z łatwością i jako domyślne z dwukierunkową uwagą, a nie autoregresywną uwagą - znacznie potężniejsze.
- usuń tokenizator (na wejściu)!! Już narzekałem, jak bardzo nie lubię tokenizatora. Tokenizatory są brzydkie, oddzielne, nie są etapem end-to-end. "Importują" całą brzydotę Unicode, kodowania bajtów, dziedziczą wiele historycznego bagażu, ryzyko bezpieczeństwa/łamania zabezpieczeń (np. bajty kontynuacji). Sprawiają, że dwa znaki, które wyglądają identycznie dla oka, wyglądają jako dwa zupełnie różne tokeny wewnętrznie w sieci. Uśmiechnięty emoji wygląda jak dziwny token, a nie... rzeczywiste uśmiechnięte oblicze, piksele i wszystko, co się z tym wiąże. Tokenizator musi odejść.
OCR to tylko jedno z wielu użytecznych zadań wizji -> tekst. A zadania tekst -> tekst mogą być przekształcone w zadania wizji -> tekst. Nie odwrotnie.
Więc wiele wiadomości od użytkownika to obrazy, ale dekoder (odpowiedź asystenta) pozostaje tekstem. O wiele mniej oczywiste jest, jak realistycznie wyjść z pikselami... lub czy byś chciał.
Teraz muszę również walczyć z pokusą, aby zająć się wersją nanochatu tylko z wejściem obrazów...
115,35K
Claude Code jest najlepszym agentem do automatyzacji pisania.
Ten artykuł liczący ponad 3000 słów w 100% został napisany przy pomocy Claude Code, ma dobre wyniki na Xiaohongshu i wywołał wiele dyskusji, ale wydaje się, że nikt nie wątpi, że to artykuł napisany przez AI.
Wkrótce podzielę się w komentarzach moim sposobem na budowanie agenta do pisania.

109,64K
W erze AI nigdy nie należy lekceważyć kreatywności, jaką może mieć człowiek. Wiele rzeczy, które kilka miesięcy temu wydawały się niemożliwe, teraz mogą wyglądać zupełnie inaczej, jeśli spróbujesz ponownie.
Pół roku temu, nie mając doświadczenia w używaniu Unity ani w tworzeniu gier, próbowałem stworzyć 3D strzelankę o tematyce militarnej z użyciem Cursor + Unity.
Wtedy największym problemem były zasoby 3D. Różne modele pojazdów opancerzonych generowane przez dostępne na rynku narzędzia AI 3D były w zasadzie jedną, niepodzielną masą, co uniemożliwiało stworzenie niezależnych animacji i efektów uszkodzeń dla wieżyczek i gąsienic, co całkowicie zablokowało projekt. Myślałem, że to koniec, aż niedawno zobaczyłem @DeemosTech.
Ich nowo wprowadzony Rodin Gen-2 ma architekturę o nazwie BANG, która jest po prostu niesamowita. Potrafi zrozumieć, że model składa się z różnych części i może logicznie rozdzielić każdy model 3D, na przykład pojazd opancerzony, helikopter, żołnierzy z tego wideo.
W takiej sytuacji mogę uzyskać niezależne wieżyczki, koła itp., które mogę bezpośrednio wykorzystać do animacji i ustawień parametrów, co zasadniczo rozwiązało wszystkie problemy, które napotkałem ostatnio.
Nagle uświadomiłem sobie, że minęło zaledwie pół roku, a moje narzędzia do rozwoju AI prawie całkowicie się zmieniły:
1. Narzędzie do programowania AI zmieniło się z Cursor na Claude Code.
2. Materiały 2D zmieniły się z Midjourney na Nano Banana.
3. A ewolucja zasobów 3D jest najbardziej rewolucyjna, przeszła z zabawki w narzędzie.
Dlatego nie stawiaj sobie ograniczeń, nie stawiaj ograniczeń AI, wystarczy, że jasno określisz, co chcesz zrobić, i co pół roku spróbujesz ponownie, a może czekać na Ciebie niespodzianka.
Uważam, że ta nowa umiejętność hyper3d ma szansę zwiększyć efektywność wielu małych zespołów gier, a także dać szansę wielu takim jak ja, początkującym deweloperom, na stworzenie swojej pierwszej gry 3D.
73,81K
Najlepsze
Ranking
Ulubione

