Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek hat gerade ein ziemlich schockierendes neues Papier veröffentlicht. Sie haben hier wirklich die Hauptinformation vergraben, indem sie es einfach als DeepSeek OCR bezeichnet haben.
Obwohl es sich um ein sehr starkes OCR-Modell handelt, geht der Zweck und die Implikationen ihres Ansatzes weit über das hinaus, was man von "noch einem OCR-Modell" erwarten würde.
Traditionell schienen Vision-LLM-Tokens fast wie ein nachträglicher Gedanke oder "Aufsatz" zum LLM-Paradigma. Und 10.000 Wörter Englisch würden in einem multimodalen LLM viel mehr Platz einnehmen, wenn sie als verständliche Pixel ausgedrückt werden, als wenn sie als Tokens ausgedrückt werden.
Diese 10.000 Wörter könnten sich also in 15.000 Tokens oder 30.000 bis 60.000 "visuelle Tokens" verwandelt haben. Vision-Tokens waren also viel weniger effizient und machten wirklich nur Sinn für Daten, die nicht effektiv mit Worten vermittelt werden konnten.
Aber das wird jetzt durch die Ideen in diesem Papier umgekehrt. DeepSeek hat herausgefunden, wie man mit Vision-Tokens eine 10-fach bessere Kompression als mit Text-Tokens erreicht! Theoretisch könnte man diese 10.000 Wörter in nur 1.500 ihrer speziellen komprimierten visuellen Tokens speichern.
Das mag nicht so unerwartet sein, wie es klingt, wenn man darüber nachdenkt, wie das eigene Gehirn funktioniert. Immerhin weiß ich, dass ich, wenn ich nach einem Teil eines Buches suche, das ich bereits gelesen habe, es mir visuell vorstelle und mich immer daran erinnere, auf welcher Seite des Buches es war und ungefähr wo auf der Seite es war, was auf eine Art visuelle Gedächtnisrepräsentation hindeutet.
Jetzt ist nicht klar, wie genau dies mit den anderen kognitiven Funktionen eines LLM interagiert; kann das Modell so intelligent über diese komprimierten visuellen Tokens nachdenken wie über reguläre Text-Tokens? Macht es das Modell weniger artikuliert, indem es es in eine visuell orientierte Modalität zwingt?
Aber man kann sich vorstellen, dass es, je nach den genauen Abwägungen, eine sehr aufregende neue Achse sein könnte, um die effektiven Kontextgrößen erheblich zu erweitern. Besonders in Kombination mit DeepSeeks anderem aktuellen Papier von vor ein paar Wochen über spärliche Aufmerksamkeit.
So viel wir wissen, könnte Google bereits etwas Ähnliches herausgefunden haben, was erklären könnte, warum Gemini eine so große Kontextgröße hat und so gut und schnell bei OCR-Aufgaben ist. Wenn sie das getan haben, würden sie wahrscheinlich nicht darüber sprechen, da es als wichtiges Geschäftsgeheimnis angesehen würde.
Aber das Schöne an DeepSeek ist, dass sie das gesamte Ding Open Source und Open Weights gemacht haben und erklärt haben, wie sie es gemacht haben, sodass jetzt jeder es ausprobieren und erkunden kann.
Selbst wenn diese Tricks die Aufmerksamkeit verlustbehafteter machen, ist das Potenzial, ein Grenz-LLM mit einem Kontextfenster von 10 oder 20 Millionen Tokens zu erhalten, ziemlich aufregend.
Man könnte im Grunde alle wichtigen internen Dokumente eines Unternehmens in ein Prompt-Präambel quetschen und dies mit OpenAI cachen und dann einfach die spezifische Anfrage oder das Prompt oben drauf hinzufügen, ohne sich mit Suchwerkzeugen herumschlagen zu müssen und es trotzdem schnell und kosteneffektiv zu halten.
Oder man könnte eine gesamte Codebasis in den Kontext einfügen und cachen und dann einfach das Äquivalent der Git-Diffs anhängen, während man Änderungen am Code vornimmt.
Wenn Sie jemals Geschichten über den großen Physiker Hans Bethe gelesen haben, war er dafür bekannt, dass er riesige Mengen zufälliger physikalischer Fakten auswendig kannte (wie das gesamte Periodensystem; Siedepunkte verschiedener Substanzen usw.), sodass er nahtlos denken und rechnen konnte, ohne jemals seinen Fluss zu unterbrechen, um etwas in einer Referenztabelle nachzuschlagen.
Eine riesige Menge an aufgabenbezogenem Wissen im Arbeitsgedächtnis zu haben, ist äußerst nützlich. Dies scheint ein sehr cleverer und additiver Ansatz zu sein, um dieses Gedächtnisbank um das 10-fache oder mehr zu erweitern.
Hier sind einige gute Erkenntnisse aus Claude Opus4.1 zu dem Papier, falls du keine Lust hast, das Ganze zu lesen (es ist auch ziemlich technisch):




Die Sache mit dem, wie man ältere Kontextspeicher auf verlustbehaftete Weise „komprimieren“ könnte, indem man die visuellen Darstellungen dieser Tokens automatisch von 1024x1024 Pixel auf 512x512 Pixel herunterskaliert, um Platz zu sparen, indem man diese Erinnerungen „verschwommener“ macht, spricht direkt zu dem, was @karpathy in seinem Dwarkesh-Interview über die Verringerung der Abhängigkeit von LLMs von exakter Memorierung befürwortet hat. Und natürlich spiegelt dies auch wider, wie der menschliche Geist besser funktioniert.
95,1K
Top
Ranking
Favoriten