Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy hat eine sehr radikale Idee vorgeschlagen: Alle Eingaben für LLMs sollten Bilder sein, einschließlich reinem Text.
Was bedeutet das?
Traditionelles großes Sprachmodell: Text → Tokenizer → LLM → Ausgabe
Andrejs Vision: Text → In Bild rendern → LLM → Ausgabe
Selbst wenn du reinen Text eingeben möchtest, solltest du ihn zuerst in ein Bild rendern und dann dem Modell füttern.
Warum das Ganze?
Er gab vier Gründe an:
1. Höhere Informationskompression
Das hat DeepSeek-OCR bewiesen. Eine Seite Dokument, traditionell könnte 2000 Text-Tokens benötigen, mit Vision-Tokens nur 64. Eine Kompressionsrate von 30-fach.
Text-Tokens sind sehr verschwenderisch, Bild-Tokens sind dichter.
2. Allgemeiner einsetzbar
Text-Tokens können nur Text ausdrücken. Aber Informationen in der realen Welt sind nicht nur Text:
- Fett, Kursiv
- Farbiger Text
- Tabellen, Diagramme
- Beliebige Bilder
Alles wird als Bild gerendert, sodass das Modell diese Informationen natürlich verarbeiten kann.
...
Top
Ranking
Favoriten