Andrej Karpathy hat eine sehr radikale Idee vorgeschlagen: Alle Eingaben für LLMs sollten Bilder sein, einschließlich reinem Text. Was bedeutet das? Traditionelles großes Sprachmodell: Text → Tokenizer → LLM → Ausgabe Andrejs Vision: Text → In Bild rendern → LLM → Ausgabe Selbst wenn du reinen Text eingeben möchtest, solltest du ihn zuerst in ein Bild rendern und dann dem Modell füttern. Warum das Ganze? Er gab vier Gründe an: 1. Höhere Informationskompression Das hat DeepSeek-OCR bewiesen. Eine Seite Dokument, traditionell könnte 2000 Text-Tokens benötigen, mit Vision-Tokens nur 64. Eine Kompressionsrate von 30-fach. Text-Tokens sind sehr verschwenderisch, Bild-Tokens sind dichter. 2. Allgemeiner einsetzbar Text-Tokens können nur Text ausdrücken. Aber Informationen in der realen Welt sind nicht nur Text: - Fett, Kursiv - Farbiger Text - Tabellen, Diagramme - Beliebige Bilder Alles wird als Bild gerendert, sodass das Modell diese Informationen natürlich verarbeiten kann. ...