Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Docela se mi líbí nový článek DeepSeek-OCR. Je to dobrý OCR model (možná o něco horší než tečky) a ano, sběr dat atd., ale stejně na tom nezáleží.
Zajímavější částí pro mě (zejména jako počítačový vision v srdci, který se dočasně maskuje jako osoba v přirozeném jazyce) je, zda jsou pixely lepšími vstupy do LLM než text. Zda jsou textové tokeny nehospodárné a prostě hrozné, na vstupu.
Možná by dávalo větší smysl, aby všechny vstupy do LLM byly vždy pouze obrázky. I když máte náhodou čistě textový vstup, možná byste ho raději vykreslili a pak ho vložili:
- více informací komprese (viz článek) = > kratší kontextová okna, větší efektivita
- výrazně obecnější informační tok = > nejen text, ale např. tučný text, barevný text, libovolné obrázky.
- vstup lze nyní snadno a standardně zpracovávat obousměrnou pozorností, nikoli autoregresivní pozorností - mnohem výkonnější.
- smazat tokenizer (na vstupu)!! Už jsem se rozplýval nad tím, jak moc se mi tokenizér nelíbí. Tokenizátory jsou ošklivé, oddělené, ne end-to-end fáze. "Importuje" veškerou ošklivost Unicode, bajtové kódování, dědí spoustu historického balastu, rizika bezpečnosti/jailbreaku (např. pokračovací bajty). Díky tomu vypadají dva znaky, které vypadají stejně jako oko a interně v síti jako dva zcela odlišné tokeny. Usmívající se emotikon vypadá jako podivný token, ne jako ... skutečný usměvavý obličej, pixely a tak dále, a všechno to přenosové učení, které to přináší. Tokenizátor musí jít.
OCR je jen jednou z mnoha užitečných textových úloh zaměřených na zrakové >. A textové > textové úlohy lze změnit na úlohy s vizí >textem. Ne naopak.
Mnoho zpráv uživatele jsou obrázky, ale dekodér (odpověď asistenta) zůstává textem. Je mnohem méně zřejmé, jak realisticky vystupovat pixely... nebo jestli byste chtěli.
Teď musím také bojovat s nutkáním vedlejší úkol vytvořit verzi nanochatu, která obsahuje pouze obrazový vstup...
Top
Hodnocení
Oblíbené