Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Mengukur Efisiensi Berpikir dalam Model Penalaran: Tolok Ukur yang Hilang
Kami mengukur penggunaan token di seluruh model penalaran: model terbuka menghasilkan 1,5-4x lebih banyak token daripada model tertutup pada tugas yang identik, tetapi dengan variasi besar tergantung pada jenis tugas (hingga 10x pada pertanyaan sederhana).
Biaya tersembunyi ini sering kali meniadakan keuntungan harga per token. Efisiensi token harus menjadi target utama di samping tolok ukur akurasi, terutama mengingat kasus penggunaan non-penalaran.
Baca tinjauan menyeluruh tentang efisiensi penalaran di seluruh lanskap model terbuka dan tertutup di posting blog terbaru kami bekerja sama dengan peneliti kami, Tim.
Lihat lebih banyak karya mereka di sini:

48,44K
Nous Research memposting ulang
Lingkungan eval Arena-Hard sekarang digabungkan ke Atropos - nikmati evaluasi yang dapat diskalakan, fleksibel, dan modern dengan tolok ukur arena-hard @lmsysorg yang sangat bagus dalam menentukan berbagai kemampuan dalam model.
Siap menjadi lingkungan RL jika Anda membawa set kereta sendiri juga :)
Pelajari lebih lanjut di

6,86K
Peneliti kami di Residensi @yaboilyrical akan membahas karyanya tentang kemudi SMC di UC Berkeley pada 3 Agustus.
Lihat blog tentang karya ini di sini:
Detail di bawah ini!

nightwing25 Jul 2025
Senang mengumumkan bahwa saya akan menjadi pembicara di @BerkeleyRDI DeAI Summit, mempresentasikan penelitian saya dengan @NousResearch tentang decoding bahasa terbatas!
Jika Anda menghadiri KTT, atau ingin datang melihat pembicaraan saya, silakan hubungi saya!

10,7K
Atropos v0.3 sekarang keluar!
Kerangka kerja Lingkungan RL kami telah melihat banyak peningkatan sejak v0.2 - beberapa sorotan:
- Atropos sekarang dapat digunakan sebagai kerangka kerja pembandingan dan evaluasi oleh @rogershijin, dengan tolok ukur eksternal pertama kami, Reward-Bench 2!
- Menambahkan Reasoning Gym, repo gym lingkungan eksternal yang dipindahkan ke atropos dengan lebih dari 100 tugas penalaran oleh @neurosp1ke dan teman
- @max_paperclips bootcamp penalaran @intern_lm terintegrasi, menambahkan 1000+ tugas penalaran baru untuk RL
- @dmayhem93 insinyur utama Atropos menambahkan lusinan perbaikan bug dan peningkatan keandalan dan kompatibilitas lainnya, dukungan yang lebih baik untuk multi-lingkungan, dan CI/CD
- Banyak lingkungan hackathon Atropos telah digabungkan ke dalam /environments/community - untuk mencantumkan semuanya akan memakan sebagian besar ruang layar, tetapi beberapa sorotan:
VR-CLI oleh @JakeABoggs, Filsafat RLAIF, Guru LLM Adaptif, WebVoyager, desain protein oleh @hallerite, lingkungan perutean model oleh @gabinfay, beberapa pembuktian ramping, arena catbot, pertarungan pokemon, poker, dokter yang membantu, puisi sanskerta oleh @khoomeik dan banyak lagi!
- Lingkungan baru penting lainnya yang didukung secara resmi meliputi:
Format jawaban mengikuti lingkungan
Lingkungan Pydantic ke JSON di-porting dari @MatternJustus kerja
Instruksi Mengikuti porting dari karya @natolambert dan @allen_ai
Penghitungan Huruf
- 47 kontributor baru!
Lihat changelog lengkapnya di sini:

Teknium (e/λ)18 Jul 2025
Baru saja menggabungkan PR untuk lingkungan untuk meningkatkan LLM sebagai Hakim serta mengevaluasi model tentang kemampuan mereka dalam melakukan penilaian!
Tahukah Anda bahwa semua lingkungan RL yang dapat diverifikasi hampir setara dengan tolok ukur (dan sebaliknya!)? Jadi kami menambahkan perintah evaluasi ke basis Atropos dan sekarang Anda dapat menjalankan tolok ukur melalui lingkungan Atropos.
Kami frustrasi bekerja dengan begitu banyak kerangka kerja tolok ukur yang kedaluwarsa atau tidak dapat digunakan, jadi kami menerapkan mode evaluasi saja ke Atropos, kerangka kerja lingkungan RL kami.
Jadi port pertama kami dari luar lingkungan kami yang ada adalah Reward-Bench @natolambert!
Catatan: ini hanya mendukung model hadiah generatif (Juri LLM reguler) saat ini.
Simak PR di sini:

25,15K
Nous Research memposting ulang
Sangat menyenangkan bekerja dengan tim @huggingface untuk mewujudkan fitur ini! Terima kasih atas semua pekerjaan dan kreativitas Anda @pcuenq @reach_vb @julien_c @ariG23498!
Juga terima kasih kepada @NousResearch @Teknium1 @Euclaise_ karena telah menjadi pengadopsi awal notebook model khusus dan mengerjakannya bersama kami!
31,47K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal