Dalam pandangan saya, SWE-bench dan T-bench adalah beberapa tolok ukur yang memiliki sinyal baik dalam hal seberapa banyak kemajuan yang kita buat dengan model. Model ini berkinerja sebaik Qwen3 Coder dan hanya 10% lebih buruk dari GPT-5, sementara juga menjadi LLM tujuan umum daripada khusus kode.
Z.ai
Z.ai11 Agu, 11.43
Mempresentasikan laporan teknis GLM-4.5! 👇 Pekerjaan ini menunjukkan bagaimana kami mengembangkan model yang unggul dalam penalaran, pengkodean, dan tugas agen melalui paradigma pelatihan multi-tahap yang unik. Inovasi utama termasuk iterasi model ahli dengan distilasi mandiri untuk menyatukan kemampuan, mode penalaran hibrida untuk pemecahan masalah dinamis, dan kurikulum pembelajaran penguatan berbasis kesulitan.
28,53K