Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy föreslog en radikal idé: alla LLM-ingångar skulle vara bilder, inklusive vanlig text.
Vad menar du?
Traditionella stora språkmodeller: Text → tokenizer → LLM → utdata
Andrejs vision: Text → renderas till bilder → LLM → utdata
Även om du vill mata in oformaterad text renderar du den som en bild och matar den till modellen.
Varför göra detta?
Han gav 4 anledningar:
1. Informationskomprimering är mer effektiv
Detta är precis vad DeepSeek-OCR bevisar. För ett dokument på en sida kan den traditionella metoden kräva 2 000 texttoken, och visionstoken behöver bara 64. Kompressionsförhållande 30 gånger.
Texttoken är slösaktiga, bildtoken är tätare.
2. Mer mångsidig
Texttoken kan bara uttrycka ord. Men verklig information är mer än bara ord:
- Fetstil, kursiv stil
- Färgad text
- Tabeller, diagram
- Godtyckliga bilder
Allt renderas som bildindata, och modellen kan hantera dessa på ett naturligt sätt.
...
Topp
Rankning
Favoriter