Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Messung der Denk-Effizienz in Modellierungsansätzen: Der fehlende Benchmark
Wir haben die Token-Nutzung über verschiedene Modellierungsansätze hinweg gemessen: Offene Modelle geben 1,5-4x mehr Tokens aus als geschlossene Modelle bei identischen Aufgaben, jedoch mit einer enormen Varianz je nach Aufgabentyp (bis zu 10x bei einfachen Fragen).
Diese versteckten Kosten negieren oft die Preisvorteile pro Token. Die Token-Effizienz sollte neben den Genauigkeitsbenchmarks ein primäres Ziel werden, insbesondere in Anbetracht von Nicht-Denk-Anwendungsfällen.
Lesen Sie die ausführliche Überprüfung der Denk-Effizienz über die Landschaft offener und geschlossener Modelle in unserem neuesten Blogbeitrag in Zusammenarbeit mit unserem Forscher in Residence, Tim.
Sehen Sie hier mehr von ihrer Arbeit:

46,65K
Nous Research erneut gepostet
Die Arena-Hard-Bewertungsumgebung ist jetzt mit Atropos zusammengeführt - genießen Sie skalierbare, flexible und moderne Bewertungen mit dem Arena-Hard-Benchmark von @lmsysorg, der hervorragend darin ist, eine Vielzahl von Fähigkeiten in Modellen zu bestimmen.
Bereit, eine RL-Umgebung zu sein, wenn Sie Ihr eigenes Trainingsset mitbringen :)
Erfahren Sie mehr unter

6,85K
Unser Forscher in Residence @yaboilyrical wird am 3. August seine Arbeit zur SMC-Steuerung an der UC Berkeley diskutieren.
Hier finden Sie den Blog zu dieser Arbeit:
Details unten!

nightwing25. Juli 2025
Ich freue mich, ankündigen zu können, dass ich als Redner beim @BerkeleyRDI DeAI Summit auftreten werde, um meine Forschung mit @NousResearch über eingeschränktes Sprachdecodieren zu präsentieren!
Wenn Sie am Summit teilnehmen oder meinen Vortrag sehen möchten, kontaktieren Sie mich bitte!

10,67K
Atropos v0.3 ist jetzt verfügbar!
Unser RL Environments-Framework hat seit v0.2 viele Verbesserungen erfahren - einige Highlights:
- Atropos kann jetzt von @rogershijin als Benchmarking- und Evaluierungs-Framework verwendet werden, mit unserem ersten externen Benchmark, Reward-Bench 2!
- Hinzugefügt wurde das Reasoning Gym, ein externes Umgebungs-Gym-Repo, das in Atropos portiert wurde und über 100 Denkaufgaben von @neurosp1ke und Freunden enthält.
- @max_paperclips hat das Reasoning Bootcamp von @intern_lm integriert und über 1000 neue Denkaufgaben für RL hinzugefügt.
- @dmayhem93, der leitende Ingenieur von Atropos, hat Dutzende von Bugfixes und andere Verbesserungen der Zuverlässigkeit und Kompatibilität hinzugefügt, bessere Unterstützung für mehrere Umgebungen und CI/CD.
- Viele der Atropos-Hackathon-Umgebungen wurden in /environments/community zusammengeführt - sie alle aufzulisten würde den meisten Platz auf dem Bildschirm einnehmen, aber einige Highlights sind:
VR-CLI von @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, Protein-Design von @hallerite, eine Modell-Routing-Umgebung von @gabinfay, mehrere auf Lean-Proving, die Catbot-Arena, Pokémon Showdown, Poker, hilfreiche Ärzte, Sanskrit-Poesie von @khoomeik und so viel mehr!
- Weitere bemerkenswerte offiziell unterstützte neue Umgebungen sind:
Antwortformat folgende Umgebung
Pydantic zu JSON-Umgebung, portiert von @MatternJustus' Arbeit
Instruction Following, portiert von @natolambert und @allen_ai's Arbeit
Buchstaben zählen
- 47 brandneue Mitwirkende!
Siehe das vollständige Änderungsprotokoll hier:

Teknium (e/λ)18. Juli 2025
Ich habe gerade eine PR für eine Umgebung zusammengeführt, um LLM als Richter zu verbessern und Modelle auf ihre Fähigkeit zur Urteilsfindung hin zu bewerten!
Wussten Sie, dass alle überprüfbaren RL-Umgebungen nahezu äquivalent zu Benchmarks sind (und umgekehrt!)? Also haben wir der Atropos-Basis einen Evaluate-Befehl hinzugefügt und jetzt können Sie Benchmarks in Atropos-Umgebungen durchführen.
Wir waren frustriert, mit so vielen Benchmark-Frameworks zu arbeiten, die veraltet oder unbrauchbar waren, also haben wir den reinen Evaluierungsmodus in Atropos, unser RL-Umgebungs-Framework, implementiert.
Unsere erste Portierung von außerhalb unserer bestehenden Umgebungen war also die Reward-Bench von @natolambert!
Hinweis: Derzeit werden nur generative Belohnungsmodelle (reguläre LLM-Judges) unterstützt.
Schauen Sie sich die PR hier an:

25,13K
Nous Research erneut gepostet
Es hat Spaß gemacht, mit dem @huggingface Team zusammenzuarbeiten, um dieses Feature Wirklichkeit werden zu lassen! Vielen Dank für all Ihre Arbeit und Kreativität @pcuenq @reach_vb @julien_c @ariG23498 !
Vielen Dank auch an @NousResearch @Teknium1 @Euclaise_, dass Sie als Early Adopters von benutzerdefinierten Notizbüchern gearbeitet haben und mit uns daran gearbeitet haben!
31,46K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten