Andrej Karpathy föreslog en radikal idé: alla LLM-ingångar skulle vara bilder, inklusive vanlig text. Vad menar du? Traditionella stora språkmodeller: Text → tokenizer → LLM → utdata Andrejs vision: Text → renderas till bilder → LLM → utdata Även om du vill mata in oformaterad text renderar du den som en bild och matar den till modellen. Varför göra detta? Han gav 4 anledningar: 1. Informationskomprimering är mer effektiv Detta är precis vad DeepSeek-OCR bevisar. För ett dokument på en sida kan den traditionella metoden kräva 2 000 texttoken, och visionstoken behöver bara 64. Kompressionsförhållande 30 gånger. Texttoken är slösaktiga, bildtoken är tätare. 2. Mer mångsidig Texttoken kan bara uttrycka ord. Men verklig information är mer än bara ord: - Fetstil, kursiv stil - Färgad text - Tabeller, diagram - Godtyckliga bilder Allt renderas som bildindata, och modellen kan hantera dessa på ett naturligt sätt. ...