Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Hatte gerade einen zufälligen Gedanken: LLMs wie ChatGPT müssen ein großer Vorteil für inkompetente Regierungsminister in kleinen Ländern sein, die ihre Positionen durch Nepotismus oder Patronagenetzwerke erhalten haben.
Diese Menschen haben oft echte Macht, sind aber aus offensichtlichen Gründen oft gezwungen, ihre Inkompetenz vor Untergebenen, politischen Herrschern und der Bevölkerung zu verbergen.
Zum Beispiel bin ich mir sicher, dass es einige Minister für Bergbau gibt, die sehr wenig über Bergbau und Wirtschaft oder Ökonomie wissen, aber dennoch für die Verhandlungen mit anspruchsvollen internationalen Bergbauunternehmen verantwortlich sind.
Oder Zentralbankgouverneure, die nicht wirklich die Grundlagen der Makroökonomie oder wie Kredit und Inflation funktionieren, verstehen.
In der Vergangenheit mussten diese Menschen im Grunde genommen „improvisieren“ und auf das Beste hoffen oder sich auf ihre etwas weniger inkompetenten Untergebenen verlassen und beten, dass die Dinge nicht zu schlecht laufen. Oder sie könnten viel Geld für Expertenberater ausgeben, was seine eigenen Nachteile hat.
Jetzt können diese Minister einfach ChatGPT in der Privatsphäre ihres Büros öffnen und ihre Probleme und die Entscheidungen, die sie treffen müssen, erklären, Dokumente und Formulare vom IWF oder wo auch immer hochladen und ziemlich gute Expertenberatung kostenlos von einem modernen Modell erhalten. Alles, ohne jemandem zu offenbaren, dass sie nicht wissen, was sie tun.
Es wäre so faszinierend zu wissen, wie viele Menschen LLMs heute auf diese Weise nutzen. Es scheint eine gute Sache zu sein. Die Welt hat einen großen Mangel an Expertise. Oder besser gesagt, diejenigen, die Zugang zur Macht haben, sind oft nicht die, die über die relevanten Fähigkeiten oder Kenntnisse verfügen.
Ich hoffe nur, dass diese Menschen für das $200/Monat-Abonnement aufkommen und das GPT-5 Pro-Modell nutzen. Aber ich bezweifle, dass sie es tun…
4,64K
Gute Absichten zählen bei solchen Dingen nicht. Was zählt, sind die tatsächlichen realen Konsequenzen der Entscheidungen und Handlungen, die wir treffen, um KI und Robotik zu entwickeln und einzusetzen. Alles, was uns verlangsamt oder uns im Vergleich zu China im Namen der "Sicherheit" benachteiligt, ist schlecht.

Reid Hoffman20. Okt., 22:09
1/ Ich möchte klarstellen: In allen Branchen, insbesondere im Bereich AI, ist es wichtig, die Guten zu unterstützen.
Anthropic ist einer der Guten.
Weitere Gedanken dazu, warum wir Innovation fördern und gleichzeitig über Sicherheit sprechen müssen:
4,7K
DeepSeek hat gerade ein ziemlich schockierendes neues Papier veröffentlicht. Sie haben hier wirklich die Hauptinformation vergraben, indem sie es einfach als DeepSeek OCR bezeichnet haben.
Obwohl es sich um ein sehr starkes OCR-Modell handelt, geht der Zweck und die Implikationen ihres Ansatzes weit über das hinaus, was man von "noch einem OCR-Modell" erwarten würde.
Traditionell schienen Vision-LLM-Tokens fast wie ein nachträglicher Gedanke oder "Aufsatz" zum LLM-Paradigma. Und 10.000 Wörter Englisch würden in einem multimodalen LLM viel mehr Platz einnehmen, wenn sie als verständliche Pixel ausgedrückt werden, als wenn sie als Tokens ausgedrückt werden.
Diese 10.000 Wörter könnten sich also in 15.000 Tokens oder 30.000 bis 60.000 "visuelle Tokens" verwandelt haben. Vision-Tokens waren also viel weniger effizient und machten wirklich nur Sinn für Daten, die nicht effektiv mit Worten vermittelt werden konnten.
Aber das wird jetzt durch die Ideen in diesem Papier umgekehrt. DeepSeek hat herausgefunden, wie man mit Vision-Tokens eine 10-fach bessere Kompression als mit Text-Tokens erreicht! Theoretisch könnte man diese 10.000 Wörter in nur 1.500 ihrer speziellen komprimierten visuellen Tokens speichern.
Das mag nicht so unerwartet sein, wie es klingt, wenn man darüber nachdenkt, wie das eigene Gehirn funktioniert. Immerhin weiß ich, dass ich, wenn ich nach einem Teil eines Buches suche, das ich bereits gelesen habe, es mir visuell vorstelle und mich immer daran erinnere, auf welcher Seite des Buches es war und ungefähr wo auf der Seite es war, was auf eine Art visuelle Gedächtnisrepräsentation hindeutet.
Jetzt ist nicht klar, wie genau dies mit den anderen kognitiven Funktionen eines LLM interagiert; kann das Modell so intelligent über diese komprimierten visuellen Tokens nachdenken wie über reguläre Text-Tokens? Macht es das Modell weniger artikuliert, indem es es in eine visuell orientierte Modalität zwingt?
Aber man kann sich vorstellen, dass es, je nach den genauen Abwägungen, eine sehr aufregende neue Achse sein könnte, um die effektiven Kontextgrößen erheblich zu erweitern. Besonders in Kombination mit DeepSeeks anderem aktuellen Papier von vor ein paar Wochen über spärliche Aufmerksamkeit.
So viel wir wissen, könnte Google bereits etwas Ähnliches herausgefunden haben, was erklären könnte, warum Gemini eine so große Kontextgröße hat und so gut und schnell bei OCR-Aufgaben ist. Wenn sie das getan haben, würden sie wahrscheinlich nicht darüber sprechen, da es als wichtiges Geschäftsgeheimnis angesehen würde.
Aber das Schöne an DeepSeek ist, dass sie das gesamte Ding Open Source und Open Weights gemacht haben und erklärt haben, wie sie es gemacht haben, sodass jetzt jeder es ausprobieren und erkunden kann.
Selbst wenn diese Tricks die Aufmerksamkeit verlustbehafteter machen, ist das Potenzial, ein Grenz-LLM mit einem Kontextfenster von 10 oder 20 Millionen Tokens zu erhalten, ziemlich aufregend.
Man könnte im Grunde alle wichtigen internen Dokumente eines Unternehmens in ein Prompt-Präambel quetschen und dies mit OpenAI cachen und dann einfach die spezifische Anfrage oder das Prompt oben drauf hinzufügen, ohne sich mit Suchwerkzeugen herumschlagen zu müssen und es trotzdem schnell und kosteneffektiv zu halten.
Oder man könnte eine gesamte Codebasis in den Kontext einfügen und cachen und dann einfach das Äquivalent der Git-Diffs anhängen, während man Änderungen am Code vornimmt.
Wenn Sie jemals Geschichten über den großen Physiker Hans Bethe gelesen haben, war er dafür bekannt, dass er riesige Mengen zufälliger physikalischer Fakten auswendig kannte (wie das gesamte Periodensystem; Siedepunkte verschiedener Substanzen usw.), sodass er nahtlos denken und rechnen konnte, ohne jemals seinen Fluss zu unterbrechen, um etwas in einer Referenztabelle nachzuschlagen.
Eine riesige Menge an aufgabenbezogenem Wissen im Arbeitsgedächtnis zu haben, ist äußerst nützlich. Dies scheint ein sehr cleverer und additiver Ansatz zu sein, um dieses Gedächtnisbank um das 10-fache oder mehr zu erweitern.
163,12K
Top
Ranking
Favoriten