Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verstärkendes Lernen ermöglicht es LLMs, Menschen in Programmier-/Mathematikwettbewerben zu schlagen und hat kürzliche Fortschritte vorangetrieben (OpenAIs o-Serie, Anthropics Claude 4)
Wird RL eine breite Generalisierung auf die gleiche Weise ermöglichen wie das Pretraining? Nicht mit den aktuellen Techniken
🧵 1/7
🔗Links hier und Thread unten:
Papier:
Mittel:
Unterstapel:
2/7
Die bestehende Bewertung von LLMs bewertet hauptsächlich die Leistung im eigenen Bereich, indem sie Reinforcement Post-Training (RPT) Modelle verwendet, die auf gemischten Daten trainiert und an Benchmarks evaluiert werden, die eng mit ihren Trainingsbereichen verbunden sind. Diese Setups führen zu verwirrenden Faktoren, die das wahre Ausmaß der Generalisierungsfähigkeit von RPT verschleiern.
3/7
Wir stellen ein einheitliches Bewertungsframework vor, das die domänenübergreifende Generalisierung von RPT anhand von 16 Benchmarks für Mathematik, Code und wissensintensives Denken isoliert und testet. In diesem Rahmen evaluieren wir verschiedene Kombinationen von Basismodellen und RPT-Strategien
4/7

📌 Unsere wichtigsten Erkenntnisse:
1️⃣ RPT-Gewinne liegen hauptsächlich im Bereich
2️⃣ Mathematik & Code lassen sich gut aufeinander verallgemeinern
3️⃣ Strukturierte Fähigkeiten lassen sich nicht auf unstrukturierte, wissensintensive Aufgaben übertragen
5/7

Das Fazit? RPT ist leistungsstark, aber schmal
Es verbessert die Leistung dort, wo es trainiert ist, verallgemeinert aber schlecht
6/7
Diese Arbeit wird gemeinsam mit @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai und @jasoncbenn
7/7
2,8K
Top
Ranking
Favoriten