Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dalam pandangan saya, SWE-bench dan T-bench adalah beberapa tolok ukur yang memiliki sinyal baik dalam hal seberapa banyak kemajuan yang kita buat dengan model. Model ini berkinerja sebaik Qwen3 Coder dan hanya 10% lebih buruk dari GPT-5, sementara juga menjadi LLM tujuan umum daripada khusus kode.

11 Agu, 11.43
Mempresentasikan laporan teknis GLM-4.5! 👇
Pekerjaan ini menunjukkan bagaimana kami mengembangkan model yang unggul dalam penalaran, pengkodean, dan tugas agen melalui paradigma pelatihan multi-tahap yang unik.
Inovasi utama termasuk iterasi model ahli dengan distilasi mandiri untuk menyatukan kemampuan, mode penalaran hibrida untuk pemecahan masalah dinamis, dan kurikulum pembelajaran penguatan berbasis kesulitan.

28,53K
Teratas
Peringkat
Favorit